論文の概要: ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation
- arxiv url: http://arxiv.org/abs/2605.30484v1
- Date: Thu, 28 May 2026 19:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.188182
- Title: ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation
- Title(参考訳): ELAN4D:プラグ・アンド・プレイ適応によるビジョン・ランゲージ・アクションモデルのためのエンボディメント中心4Dスーパービジョン
- Authors: Zeyuan He, Bowen Yang, Zhirui Fang, Keru Zhou, Lei Jiang, Jingjing Qian, Fan Mo, Junchi Yan, Philip Torr, Xiu Li, Li Jiang, Jialin Yu,
- Abstract要約: VLA(Vision-Language-Action)モデルでは、ロボット操作が約束されているが、既存のほとんどのポリシーは、現在の観測からアクションを直接回帰することで、反応する。
ELAN4Dは,将来のロボットキートラックによるポリシーを予測的時間的監視として強化する,実施中心の4D対応トレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 63.617951135459016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown promise for robotic manipulation, yet most existing policies operate reactively by directly regressing actions from current observations, without explicitly modeling future dynamics. This limits their ability to generalize under out-of-distribution perturbations. To address this issue, we propose ELAN4D, an embodiment-centric, 4D-aware training framework that enhances VLA policies with future robot keypoint tracks as predictive spatio-temporal supervision. Using only forward kinematics from proprioceptive states, we derive 3D displacement tracks of robot keypoints, such as joints and the end-effector, with negligible preprocess cost. These tracks provide metric and compact supervision without requiring external trackers or reconstruction. A plug-and-play auxiliary branch with a lightweight track decoder injects this 4D signal into the action expert while preserving the pretrained vision-language backbone through gradient isolation. The track decoder is discarded during inference, leaving the base policy interface unchanged. Extensive experiments on LIBERO, LIBERO-Plus, RoboTwin2.0 and real-world manipulation tasks demonstrate that ELAN4D consistently improves over strong VLA baselines, achieving the best overall performance and substantial gains under out-of-distribution perturbations, including camera, background, and layout shifts. These results highlight the effectiveness of embodiment-centric 4D supervision for building more robust and generalizable manipulation policies.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルではロボット操作が約束されているが、既存のほとんどのポリシーは、将来のダイナミクスを明示的にモデル化することなく、現在の観測からアクションを直接回帰することで、リアクティブに動作している。
これにより、アウト・オブ・ディストリビューションの摂動の下で一般化する能力が制限される。
この問題に対処するために,将来のロボットキーポイントトラックによるVLAポリシを予測時空間監視として強化する,エンボディメント中心の4D対応トレーニングフレームワークであるELAN4Dを提案する。
前方運動学のみを用いて、関節やエンドエフェクタなどのロボットキーポイントの3次元変位トラックを、無視可能な前処理コストで導出する。
これらのトラックは、外部のトラッカーや再構築を必要とせず、メートル法とコンパクトな監督を提供する。
軽量トラックデコーダを備えたプラグ・アンド・プレイ補助分岐は、この4D信号をアクションエキスパートに注入し、勾配分離により予め訓練された視覚言語バックボーンを保存する。
トラックデコーダは推論中に破棄され、基本ポリシーインターフェースは変更されない。
LIBERO、LIBERO-Plus、RoboTwin2.0、および実世界の操作タスクに関する大規模な実験により、ELAN4Dは、強力なVLAベースラインよりも一貫して改善され、最高の全体的なパフォーマンスと、カメラ、バックグラウンド、レイアウトシフトを含む配布外摂動の下で大幅に向上することを示した。
これらの結果は、より堅牢で汎用的な操作ポリシーを構築するための、実施中心の4D監視の有効性を強調している。
関連論文リスト
- Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。
Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。
3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文 参考訳(メタデータ) (2026-03-02T07:23:53Z) - MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation [27.70398018267795]
本研究は,幾何学的に一貫した任意のRGBD生成が可能な,新しい4次元世界モデルを提案する。
3つのデータセットの実験は、4Dシーン生成と下流操作の両方で強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2026-02-10T15:19:17Z) - GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation [47.471097712217386]
既存のアプローチは、視覚入力から直接アクションを予測するV-A(Vision-to-A)パラダイムや、中間的な3D表現を活用するV-3D-to-A(Vision-to-A)パラダイムに従うのが一般的である。
本稿では,ガウスアクション場(GAF)を介して動作認識4D表現から直接行動推論を可能にするV-4D-Aフレームワークを採用する。
実験では、+11.5385 dB PSNR、+0.3864 SSIM、-0.5574 LPIPSの改善を達成し、平均+7.3%の成功を上げた。
論文 参考訳(メタデータ) (2025-06-17T02:55:20Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Street Gaussians without 3D Object Tracker [84.89933388445185]
既存のほとんどの方法は、オブジェクトポーズの労働集約的な手動ラベリングに依存している。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。