論文の概要: Tactile Modality Fusion for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.14604v1
- Date: Sun, 15 Mar 2026 20:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.914002
- Title: Tactile Modality Fusion for Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルのための触覚モダリティ融合
- Authors: Charlotte Morissette, Amin Abyaneh, Wei-Di Chang, Anas Houssaini, David Meger, Hsiu-Chin Lin, Jonathan Tremblay, Gregory Dudek,
- Abstract要約: 本稿では,視覚触覚信号と視覚言語アクション(VLA)モデルを統合する軽量なモーダルフュージョンアプローチであるTacFiLMを提案する。
その結果, 成功率, 直接挿入性能, 完了時間, 負荷安定性の両面において一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 22.788833830429766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TacFiLM, a lightweight modality-fusion approach that integrates visual-tactile signals into vision-language-action (VLA) models. While recent advances in VLA models have introduced robot policies that are both generalizable and semantically grounded, these models mainly rely on vision-based perception. Vision alone, however, cannot capture the complex interaction dynamics that occur during contact-rich manipulation, including contact forces, surface friction, compliance, and shear. While recent attempts to integrate tactile signals into VLA models often increase complexity through token concatenation or large-scale pretraining, the heavy computational demands of behavioural models necessitate more lightweight fusion strategies. To address these challenges, TacFiLM outlines a post-training finetuning approach that conditions intermediate visual features on pretrained tactile representations using feature-wise linear modulation (FiLM). Experimental results on insertion tasks demonstrate consistent improvements in success rate, direct insertion performance, completion time, and force stability across both in-distribution and out-of-distribution tasks. Together, these results support our method as an effective approach to integrating tactile signals into VLA models, improving contact-rich manipulation behaviours.
- Abstract(参考訳): 本稿では,視覚触覚信号と視覚言語アクション(VLA)モデルを統合する軽量なモダリティ融合手法であるTacFiLMを提案する。
VLAモデルの最近の進歩は、一般化可能かつ意味論的基盤を持つロボットポリシーを導入しているが、これらのモデルは主に視覚に基づく知覚に依存している。
しかし、視覚だけでは、接触力、表面摩擦、コンプライアンス、せん断など、コンタクトリッチな操作中に起こる複雑な相互作用のダイナミクスを捉えることはできない。
VLAモデルに触覚信号を統合する最近の試みは、トークンの連結や大規模な事前訓練によって複雑さを増大させるが、行動モデルの重い計算要求はより軽量な融合戦略を必要とする。
これらの課題に対処するため、TacFiLMは、FiLM (Feature-wise linear modulation) を用いて事前訓練された触覚表現の中間的な視覚的特徴を条件付ける、訓練後の微調整アプローチを概説した。
挿入作業における実験結果は, 成功率, 直接挿入性能, 完了時間, 出力安定性の両面において一貫した改善が見られた。
これらの結果は,VLAモデルに触覚信号を統合するための効果的な手法として,我々の手法を裏付けるものである。
関連論文リスト
- Learning Generalizable Visuomotor Policy through Dynamics-Alignment [13.655111993491674]
ビデオ予測モデルを利用した最近のアプローチは、大規模データセットからリッチな表現を学習することで、有望な結果を示している。
本稿では,ダイナミックス予測をポリシ学習に統合するDAP(Dynamics-Aligned Flow Matching Policy)を提案する。
提案手法では,ポリシーモデルと動的モデルが相互に行動生成のフィードバックを与え,自己補正を実現し,一般化を向上するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-31T02:29:33Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。