論文の概要: VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback
- arxiv url: http://arxiv.org/abs/2507.17294v2
- Date: Tue, 29 Jul 2025 12:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.819224
- Title: VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback
- Title(参考訳): VLA-Touch:デュアルレベル触覚フィードバックを用いたビジョン・ランゲージ・アクションモデルの実現
- Authors: Jianxin Bi, Kevin Yuchen Ma, Ce Hao, Mike Zheng Shou, Harold Soh,
- Abstract要約: VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
- 参考スコア(独自算出の注目度): 21.08021535027628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tactile feedback is generally recognized to be crucial for effective interaction with the physical world. However, state-of-the-art Vision-Language-Action (VLA) models lack the ability to interpret and use tactile signals, limiting their effectiveness in contact-rich tasks. Incorporating tactile feedback into these systems is challenging due to the absence of large multi-modal datasets. We present VLA-Touch, an approach that enhances generalist robot policies with tactile sensing \emph{without fine-tuning} the base VLA. Our method introduces two key innovations: (1) a pipeline that leverages a pretrained tactile-language model that provides semantic tactile feedback for high-level task planning, and (2) a diffusion-based controller that refines VLA-generated actions with tactile signals for contact-rich manipulation. Through real-world experiments, we demonstrate that our dual-level integration of tactile feedback improves task planning efficiency while enhancing execution precision. Code is open-sourced at \href{https://github.com/jxbi1010/VLA-Touch}{this URL}.
- Abstract(参考訳): 触覚フィードバックは一般的に、物理的世界との効果的な相互作用に不可欠であると認識されている。
しかし、最先端のVision-Language-Action(VLA)モデルは、触覚信号の解釈と使用能力に欠けており、コンタクトリッチなタスクでの有効性を制限している。
これらのシステムに触覚フィードバックを組み込むことは、大規模なマルチモーダルデータセットがないために困難である。
VLA-Touchは,基本となるVLAを微調整せずに触覚センサにより汎用的なロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプライン,(2)コンタクトリッチな操作のための触覚信号を用いてVLA生成動作を洗練する拡散型制御器,の2つの重要なイノベーションを紹介する。
実世界の実験を通して、触覚フィードバックの二重レベル統合は、実行精度を高めながらタスク計画効率を向上させることを実証した。
コードは \href{https://github.com/jxbi1010/VLA-Touch}{this URL} でオープンソース化されている。
関連論文リスト
- Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization [14.189391793395384]
本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
実験では、Tactile-VLAの有効性と一般化性を3つの重要な側面で示している。
論文 参考訳(メタデータ) (2025-07-12T06:44:37Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [54.28635581240747]
VLA(Vision-Language-Action)モデルは、事前訓練された視覚表現と言語表現を活用することで、高度な汎用ロボット操作を実現する。
ForceVLAは、外力センシングをVLAシステム内の第一級のモダリティとして扱う。
提案手法は,器用な操作のためのマルチモーダル統合の重要性を強調し,身体知能ロボット制御のための新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - TLA: Tactile-Language-Action Model for Contact-Rich Manipulation [9.97307182748107]
本稿では,触覚フィードバックの逐次処理をモーダル言語間接地により行う,触覚・言語・行動モデルを提案する。
指先ペグ・イン・ホール・アセンブリ用にカスタマイズされた24万組の触覚行動指示データを含む包括的データセットを構築した。
その結果,TLAは,効果的な行動生成と行動精度の観点から,従来の模倣学習法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-11T15:36:28Z) - Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。