論文の概要: Touch begins where vision ends: Generalizable policies for contact-rich manipulation
- arxiv url: http://arxiv.org/abs/2506.13762v1
- Date: Mon, 16 Jun 2025 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.214198
- Title: Touch begins where vision ends: Generalizable policies for contact-rich manipulation
- Title(参考訳): タッチは視覚が終わるところから始まる:コンタクトリッチな操作のための一般化可能なポリシー
- Authors: Zifan Zhao, Siddhant Haldar, Jinda Cui, Lerrel Pinto, Raunaq Bhirangi,
- Abstract要約: 本稿では,微粒な操作タスクを解決するフレームワークであるVisuoTactile Local (ViTaL)ポリシー学習を紹介する。
ViTaLは、目に見えない環境でのコンタクトリッチなタスクで約90%の成功を達成している。
- 参考スコア(独自算出の注目度): 18.195865256382334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven approaches struggle with precise manipulation; imitation learning requires many hard-to-obtain demonstrations, while reinforcement learning yields brittle, non-generalizable policies. We introduce VisuoTactile Local (ViTaL) policy learning, a framework that solves fine-grained manipulation tasks by decomposing them into two phases: a reaching phase, where a vision-language model (VLM) enables scene-level reasoning to localize the object of interest, and a local interaction phase, where a reusable, scene-agnostic ViTaL policy performs contact-rich manipulation using egocentric vision and tactile sensing. This approach is motivated by the observation that while scene context varies, the low-level interaction remains consistent across task instances. By training local policies once in a canonical setting, they can generalize via a localize-then-execute strategy. ViTaL achieves around 90% success on contact-rich tasks in unseen environments and is robust to distractors. ViTaL's effectiveness stems from three key insights: (1) foundation models for segmentation enable training robust visual encoders via behavior cloning; (2) these encoders improve the generalizability of policies learned using residual RL; and (3) tactile sensing significantly boosts performance in contact-rich tasks. Ablation studies validate each of these insights, and we demonstrate that ViTaL integrates well with high-level VLMs, enabling robust, reusable low-level skills. Results and videos are available at https://vitalprecise.github.io.
- Abstract(参考訳): データ駆動型アプローチは正確な操作に苦しむ;模倣学習は多くの困難かつ不確実なデモンストレーションを必要とし、強化学習は脆弱で一般化不可能なポリシーをもたらす。
VisuoTactile Local(ViTaL)ポリシー学習は、視覚言語モデル(VLM)が関心対象をローカライズするためのシーンレベルの推論を可能にするリーチフェーズと、再利用可能なシーンに依存しないViTaLポリシーがエゴセントリックビジョンと触覚センシングを用いてコンタクトリッチな操作を行うローカルインタラクションフェーズの2つのフェーズに分解することで、きめ細かな操作タスクを解決するフレームワークである。
このアプローチは、シーンコンテキストが異なるが、タスクインスタンス間での低レベルの相互作用が一貫しているという観察によって動機づけられる。
標準設定で一度ローカルポリシーをトレーニングすることで、ローカライズ・ザ・エグゼクティブ戦略を通じて一般化することができる。
ViTaLは、目に見えない環境でのコンタクトリッチなタスクで約90%の成功を達成し、邪魔者に対して堅牢である。
ViTaLの有効性は,(1)セグメンテーションの基礎モデルにより,行動クローニングによるロバストな視覚エンコーダのトレーニングが可能になること,(2)残差RLを用いて学習したポリシーの一般化性を向上させること,(3)触覚感覚がコンタクトリッチなタスクのパフォーマンスを著しく向上すること,の3つの主要な知見に起因している。
アブレーション研究はこれらの知見をそれぞれ検証し、ViTaLが高レベルのVLMとうまく統合され、堅牢で再利用可能な低レベルのスキルを実現することを実証する。
結果とビデオはhttps://vitalprecise.github.io.comで公開されている。
関連論文リスト
- ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - Learning Object Relation Graph and Tentative Policy for Visual
Navigation [44.247995617796484]
情報的視覚表現とロバストなナビゲーションポリシーを学ぶことは重要である。
本稿では、オブジェクト関係グラフ(ORG)、試行駆動型模倣学習(IL)、メモリ拡張仮ポリシーネットワーク(TPN)の3つの補完手法を提案する。
パス長(SPL)による成功率と成功率の22.8%と23.5%の増加を報告した。
論文 参考訳(メタデータ) (2020-07-21T18:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。