論文の概要: LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior
- arxiv url: http://arxiv.org/abs/2603.25399v1
- Date: Thu, 26 Mar 2026 12:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.29836
- Title: LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior
- Title(参考訳): LaMP:3次元シーンフローを先行動作として学習するビジョンランゲージ・アクション・ポリシー
- Authors: Xinkai Wang, Chenyi Wang, Yifu Xu, Mingzhe Ye, Fu-Cheng Zhang, Jialin Tian, Xinyu Zhan, Lifeng Zhu, Cewu Lu, Lixin Yang,
- Abstract要約: ロボット操作に先立って,高密度な3次元シーンフローを潜時動作として組み込む,デュアルエキスパートのビジョン・ランゲージ・アクションフレームワークである textbfLaMP を導入する。
LaMPはこの制限に対処するため、フローマッチングのEmphMotion Expertとポリシー予測のEmphAction Expertをクロスアテンションを通じて整列する。
LIBERO, LIBERO-Plus, SimplerEnv-WidowX シミュレーションベンチマークおよび実世界実験における LaMP の評価を行った。
- 参考スコア(独自算出の注目度): 40.26773488998432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textbf{LaMP}, a dual-expert Vision-Language-Action framework that embeds dense 3D scene flow as a latent motion prior for robotic manipulation. Existing VLA models regress actions directly from 2D semantic visual features, forcing them to learn complex 3D physical interactions implicitly. This implicit learning strategy degrades under unfamiliar spatial dynamics. LaMP addresses this limitation by aligning a flow-matching \emph{Motion Expert} with a policy-predicting \emph{Action Expert} through gated cross-attention. Specifically, the Motion Expert generates a one-step partially denoised 3D scene flow, and its hidden states condition the Action Expert without full multi-step reconstruction. We evaluate LaMP on the LIBERO, LIBERO-Plus, and SimplerEnv-WidowX simulation benchmarks as well as real-world experiments. LaMP consistently outperforms evaluated VLA baselines across LIBERO, LIBERO-Plus, and SimplerEnv-WidowX benchmarks, achieving the highest reported average success rates under the same training budgets. On LIBERO-Plus OOD perturbations, LaMP shows improved robustness with an average 9.7% gain over the strongest prior baseline. Our project page is available at https://summerwxk.github.io/lamp-project-page/.
- Abstract(参考訳): ロボット操作に先立って,高密度な3次元シーンフローを潜時動作として埋め込む,デュアルエキスパートのビジョン・ランゲージ・アクション・フレームワークである \textbf{LaMP} を紹介する。
既存のVLAモデルは2Dのセマンティックな視覚的特徴から直接アクションを回帰し、複雑な3Dの物理的相互作用を暗黙的に学習させます。
この暗黙の学習戦略は、不慣れな空間力学の下で劣化する。
LaMPはこの制限に対処するため、フローマッチングの \emph{Motion Expert} とポリシー予測の \emph{Action Expert} をゲートクロスアテンションを通じて整列する。
具体的には、モーションエキスパートは、一段部分的な3Dシーンフローを生成し、その隠れ状態は、完全なマルチステップ再構成なしでアクションエキスパートを条件とする。
LIBERO, LIBERO-Plus, SimplerEnv-WidowX シミュレーションベンチマークおよび実世界実験における LaMP の評価を行った。
LaMPは、LIBERO、LIBERO-Plus、SimplerEnv-WidowXベンチマークで評価されたVLAベースラインを一貫して上回り、同じトレーニング予算の下で報告された平均的な成功率を達成した。
LIBERO-Plus OOD摂動では、LaMPは最強のベースラインよりも平均9.7%向上したロバスト性を示した。
私たちのプロジェクトページはhttps://summerwxk.github.io/lamp-project-page/.com/で公開されています。
関連論文リスト
- Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding [9.774606705982874]
本稿では,感情モダリティデータを用いたMLLM(Large Language Models)を大幅に強化する。
運動MLLMは、身体的運動軌跡の視覚的内容のグラウンド化によって、シーン全体にわたる絶対的なスケールと空間的関係を推論することができる。
ビデオフレームと明示的な3Dデータに基づく最新技術(SOTA)手法と比較して、Motion-MLLMはオーバーヘッドをはるかに少なく、類似またはそれ以上の精度を示す。
論文 参考訳(メタデータ) (2026-03-18T17:42:49Z) - VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning [29.62906091681386]
VolumeDPは空間アライメントを3Dで明示的に推論することで復元するポリシーアーキテクチャである。
LIBEROシミュレーションベンチマークでは、最先端の平均成功率は88.8%に達する。
論文 参考訳(メタデータ) (2026-03-18T13:40:24Z) - Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。
Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。
3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文 参考訳(メタデータ) (2026-03-02T07:23:53Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。