論文の概要: VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs
- arxiv url: http://arxiv.org/abs/2603.23481v1
- Date: Tue, 24 Mar 2026 17:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.623009
- Title: VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs
- Title(参考訳): VTAM:VLA以外の複雑な物理相互作用のためのビデオ触覚反応モデル
- Authors: Haoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou,
- Abstract要約: Video-Action Models (VAM) は、インテリジェンスを具現化するための有望なフレームワークとして登場した。
本稿では,触覚を接地信号として組み込んだマルチモーダル世界モデリングフレームワークであるVideo-Tactile Action Model (VTAM)を紹介する。
VTAMは、触覚ストリームでトレーニング済みのビデオトランスフォーマーを軽量なモダリティ転送ファインタニングで強化する。
- 参考スコア(独自算出の注目度): 47.982092015932444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.
- Abstract(参考訳): VAM(Video-Action Models)は、生のビデオストリームから暗黙の世界ダイナミクスを学び、時間的に一貫した行動予測を生成する、インテリジェンスを具現化するための有望なフレームワークとして登場した。
このようなモデルは、視覚的推論による長期タスクにおいて強い性能を示すが、重要な相互作用状態が視覚のみから部分的にしか観察できないような、接触に富んだシナリオに限られる。
特に、きめ細かい力変調と接触遷移は、視覚トークンに確実にエンコードされておらず、不安定または不正確な振る舞いをもたらす。
このギャップを埋めるために,触覚を補完的な接地信号として組み込んだマルチモーダル世界モデリングフレームワークであるVideo-Tactile Action Model (VTAM)を導入する。
VTAMは、触覚ストリームを軽量なモダリティ転送微調整により拡張し、触覚言語ペアデータや独立した触覚事前学習を使わずに、効率的なクロスモーダル表現学習を可能にする。
マルチモーダル核融合を安定化させるために,両モード間のバランスの取れた注意を強制する触覚正規化損失を導入し,アクションモデルにおける視覚的潜伏支配を防止した。
VTAMは、接触リッチな操作において優れた性能を示し、平均90%の堅牢な成功率を維持している。
ポテトチップスのピック・アンド・プレイスのような挑戦的なシナリオでは、高忠実度力の認識を必要とするが、VTAMはpi 0.5ベースラインを80%上回っている。
本研究は,世界行動モデルにおける視覚的推定誤差の補正に触覚フィードバックの統合が不可欠であることを示す。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - Tactile Modality Fusion for Vision-Language-Action Models [22.788833830429766]
本稿では,視覚触覚信号と視覚言語アクション(VLA)モデルを統合する軽量なモーダルフュージョンアプローチであるTacFiLMを提案する。
その結果, 成功率, 直接挿入性能, 完了時間, 負荷安定性の両面において一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-03-15T20:57:51Z) - TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation [27.000763540977506]
VLA(Vision-Language-Action)モデルは、ロボット操作において大きな優位性を示している。
本稿では,触覚モーダルを変換器のポリシーに組み込んだ微調整VLAモデルTacVLAを提案する。
本稿では,接触検出時にのみ触覚トークンを選択的に活性化する接触認識ゲーティング機構を提案する。
論文 参考訳(メタデータ) (2026-03-13T05:20:41Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。