論文の概要: Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization
- arxiv url: http://arxiv.org/abs/2507.09160v1
- Date: Sat, 12 Jul 2025 06:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.567782
- Title: Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization
- Title(参考訳): 触覚-VLA:視力-言語-行動モデルにおける触覚一般化のための物理知識の解き方
- Authors: Jialei Huang, Shuo Wang, Fanqi Lin, Yihang Hu, Chuan Wen, Yang Gao,
- Abstract要約: 本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
実験では、Tactile-VLAの有効性と一般化性を3つの重要な側面で示している。
- 参考スコア(独自算出の注目度): 14.189391793395384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown remarkable achievements, driven by the rich implicit knowledge of their vision-language components. However, achieving generalist robotic agents demands precise grounding into physical interactions, especially in contact-rich scenarios where fine-grained force control is essential. We advance VLAs' implicit knowledge beyond identifying what to do, towards guiding how to physically interact with real world. This paper introduces Tactile-VLA, a novel framework that deeply fuses vision, language, action, and tactile sensing. This framework incorporates a hybrid position-force controller to translate the model's intentions into precise physical actions and a reasoning module that allows the robot to adapt its strategy based on tactile feedback. Experiments demonstrate Tactile-VLA's effectiveness and generalizability in three key aspects: (1) enabling tactile-aware instruction following, (2) utilizing tactile-relevant commonsense, and (3) facilitating adaptive tactile-involved reasoning. A key finding is that the VLM's prior knowledge already contains semantic understanding of physical interaction; by connecting it to the robot's tactile sensors with only a few demonstrations, we can activate this prior knowledge to achieve zero-shot generalization in contact-rich tasks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、視覚言語コンポーネントの豊富な暗黙的な知識によって、顕著な成果が示されている。
しかし、一般的なロボットエージェントを達成するためには、特にきめ細かい力制御が不可欠である接触に富んだシナリオにおいて、物理的な相互作用を正確に理解する必要がある。
VLAの暗黙の知識は、何をすべきかを識別することを超えて、現実世界と物理的に対話する方法を導き出す。
本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
このフレームワークは、モデルの意図を正確な物理的行動に変換するためのハイブリッドな位置力コントローラと、触覚フィードバックに基づいてロボットが戦略を適応できるようにする推論モジュールを備えている。
実験では,(1)触覚認識の指導を可能にすること,(2)触覚関連コモンセンスを活用すること,(3)適応的な触覚関連推論を容易にすること,の3つの重要な側面において,触覚-VLAの有効性と一般化性を示す。
重要な発見は、VLMの以前の知識は、既に物理的相互作用のセマンティックな理解を含んでおり、ロボットの触覚センサーにほんの数回のデモンストレーションで接続することで、この事前知識を活性化して、接触豊富なタスクにおいてゼロショットの一般化を達成できるということである。
関連論文リスト
- Touch begins where vision ends: Generalizable policies for contact-rich manipulation [18.195865256382334]
本稿では,微粒な操作タスクを解決するフレームワークであるVisuoTactile Local (ViTaL)ポリシー学習を紹介する。
ViTaLは、目に見えない環境でのコンタクトリッチなタスクで約90%の成功を達成している。
論文 参考訳(メタデータ) (2025-06-16T17:59:48Z) - Universal Visuo-Tactile Video Understanding for Embodied Interaction [16.587054862266168]
本稿では,VTV-LLMについて紹介する。
VTV-LLMは触覚と自然言語のギャップを埋める。
本稿では,VTVによるビジュオ触覚表現の強化を含む新しい3段階トレーニングパラダイムを開発する。
論文 参考訳(メタデータ) (2025-05-28T16:43:01Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [54.28635581240747]
VLA(Vision-Language-Action)モデルは、事前訓練された視覚表現と言語表現を活用することで、高度な汎用ロボット操作を実現する。
ForceVLAは、外力センシングをVLAシステム内の第一級のモダリティとして扱う。
提案手法は,器用な操作のためのマルチモーダル統合の重要性を強調し,身体知能ロボット制御のための新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - TLA: Tactile-Language-Action Model for Contact-Rich Manipulation [9.97307182748107]
本稿では,触覚フィードバックの逐次処理をモーダル言語間接地により行う,触覚・言語・行動モデルを提案する。
指先ペグ・イン・ホール・アセンブリ用にカスタマイズされた24万組の触覚行動指示データを含む包括的データセットを構築した。
その結果,TLAは,効果的な行動生成と行動精度の観点から,従来の模倣学習法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-11T15:36:28Z) - Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins [17.412763585521688]
我々は、トランスフォーマーベースのポリシーを使用して、皮膚センサーデータを視覚情報とともに追加トークンとして扱うシンプルなアプローチであるVisuo-Skin(ViSk)フレームワークを提案する。
ViSkは、視力のみと光触覚に基づくポリシーの両方で著しく優れています。
さらに、触覚と視覚のモダリティを組み合わせることで、政策性能と空間的一般化が向上し、タスク全体で平均27.5%の改善が達成される。
論文 参考訳(メタデータ) (2024-10-22T17:59:49Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。