論文の概要: Robotic VLA Benefits from Joint Learning with Motion Image Diffusion
- arxiv url: http://arxiv.org/abs/2512.18007v1
- Date: Fri, 19 Dec 2025 19:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.149563
- Title: Robotic VLA Benefits from Joint Learning with Motion Image Diffusion
- Title(参考訳): 動画像拡散を用いた共同学習によるロボットVLAのメリット
- Authors: Yu Fang, Kanchana Ranasinghe, Le Xue, Honglu Zhou, Juntao Tan, Ran Xu, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Daniel Szafir, Mingyu Ding, Michael S. Ryoo, Juan Carlos Niebles,
- Abstract要約: VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
- 参考スコア(独自算出の注目度): 114.60268819583017
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have achieved remarkable progress in robotic manipulation by mapping multimodal observations and instructions directly to actions. However, they typically mimic expert trajectories without predictive motion reasoning, which limits their ability to reason about what actions to take. To address this limitation, we propose joint learning with motion image diffusion, a novel strategy that enhances VLA models with motion reasoning capabilities. Our method extends the VLA architecture with a dual-head design: while the action head predicts action chunks as in vanilla VLAs, an additional motion head, implemented as a Diffusion Transformer (DiT), predicts optical-flow-based motion images that capture future dynamics. The two heads are trained jointly, enabling the shared VLM backbone to learn representations that couple robot control with motion knowledge. This joint learning builds temporally coherent and physically grounded representations without modifying the inference pathway of standard VLAs, thereby maintaining test-time latency. Experiments in both simulation and real-world environments demonstrate that joint learning with motion image diffusion improves the success rate of pi-series VLAs to 97.5% on the LIBERO benchmark and 58.0% on the RoboTwin benchmark, yielding a 23% improvement in real-world performance and validating its effectiveness in enhancing the motion reasoning capability of large-scale VLAs.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
しかし、それらは通常、予測運動推論なしで専門家の軌道を模倣し、どのような行動をとるかの推論能力を制限する。
この制限に対処するため、動作推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
動作ヘッドは、バニラVLAのように動作チャンクを予測するが、Diffusion Transformer (DiT) として実装された追加のモーションヘッドは、将来のダイナミクスを捉えるための光フローベースのモーションイメージを予測する。
2つの頭は共同で訓練され、共有されたVLMバックボーンはロボット制御とモーション知識を結合した表現を学習することができる。
この共同学習は、標準VLAの推論経路を変更することなく、時間的コヒーレントで物理的に接地された表現を構築し、テスト時間レイテンシを維持する。
シミュレーションと実世界の環境での実験では、モーション画像拡散による共同学習により、LIBEROベンチマークではピシリーズVLAが97.5%、RoboTwinベンチマークでは58.0%に向上し、実世界の性能は23%向上し、大規模なVLAの動作推論能力を高める効果が検証された。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。