論文の概要: ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing
- arxiv url: http://arxiv.org/abs/2503.04545v1
- Date: Thu, 06 Mar 2025 15:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:29.959168
- Title: ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing
- Title(参考訳): ViT-VS: 一般化可能なビジュアルサーボのための事前訓練された視覚変換器機能の適用性について
- Authors: Alessandro Scherl, Stefan Thalhammer, Bernhard Neuberger, Wilfried Wöber, José Gracía-Rodríguez,
- Abstract要約: 本稿では,事前学習した視覚変換器を用いて意味的特徴抽出を行う視覚サーボ手法を提案する。
提案手法は、従来の画像に基づく視覚サーボよりも、摂動シナリオの相対的な改善を31.2%も上回っている。
実世界の評価では、エンドエフェクタの位置決め、工業用ボックス操作、見えない物体の把握において堅牢な性能が確認されている。
- 参考スコア(独自算出の注目度): 40.67171259494469
- License:
- Abstract: Visual servoing enables robots to precisely position their end-effector relative to a target object. While classical methods rely on hand-crafted features and thus are universally applicable without task-specific training, they often struggle with occlusions and environmental variations, whereas learning-based approaches improve robustness but typically require extensive training. We present a visual servoing approach that leverages pretrained vision transformers for semantic feature extraction, combining the advantages of both paradigms while also being able to generalize beyond the provided sample. Our approach achieves full convergence in unperturbed scenarios and surpasses classical image-based visual servoing by up to 31.2\% relative improvement in perturbed scenarios. Even the convergence rates of learning-based methods are matched despite requiring no task- or object-specific training. Real-world evaluations confirm robust performance in end-effector positioning, industrial box manipulation, and grasping of unseen objects using only a reference from the same category. Our code and simulation environment are available at: https://alessandroscherl.github.io/ViT-VS/
- Abstract(参考訳): 視覚サーボにより、ロボットは対象物に対して、そのエンドエフェクターを正確に位置決めすることができる。
古典的な手法は手作りの特徴に頼っているため、タスク固有の訓練なしに普遍的に適用できるが、それらはしばしば閉塞や環境の変化に苦しむが、学習に基づくアプローチは堅牢性を改善するが、通常は広範囲な訓練を必要とする。
本稿では,事前学習した視覚変換器を用いて意味的特徴抽出を行う視覚サーボ手法を提案する。
提案手法は, 摂動シナリオの完全収束を実現し, 摂動シナリオの相対的改善率を最大31.2倍に向上させる。
学習ベースの手法の収束率でさえ、タスク固有のトレーニングやオブジェクト固有のトレーニングを必要としないにもかかわらず一致します。
実世界の評価では、同じカテゴリからの参照のみを用いて、エンドエフェクタの位置決め、工業用ボックス操作、未確認物体の把握において堅牢な性能が確認されている。
私たちのコードとシミュレーション環境は、https://alessandroscherl.github.io/ViT-VS/で利用可能です。
関連論文リスト
- Practical token pruning for foundation models in few-shot conversational virtual assistant systems [6.986560111427867]
コントラスト学習目標を持つ変圧器に基づく文埋め込みモデルを事前学習し、学習意図分類モデルの特徴としてモデルの埋め込みを利用する。
提案手法は,数ショットのシナリオに対して最先端の結果を達成し,一般的な意図分類ベンチマークにおいて,他の商用ソリューションよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-08-21T17:42:17Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based
Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。
私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2023-09-18T15:25:59Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Learning View and Target Invariant Visual Servoing for Navigation [9.873635079670093]
ローカルな移動ロボットナビゲーションのための視点不変と目標不変の視覚サーボを学習する。
我々は、目的を達成するために深層畳み込みネットワークコントローラを訓練する。
論文 参考訳(メタデータ) (2020-03-04T20:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。