論文の概要: MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction
- arxiv url: http://arxiv.org/abs/2602.03668v1
- Date: Tue, 03 Feb 2026 15:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.550143
- Title: MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction
- Title(参考訳): MVP-LAM:クロスポイント・コンストラクションによる行動中心潜在行動の学習
- Authors: Jung Min Lee, Dohyeok Lee, Seokhun Ju, Taehyun Cho, Jin Woo Koo, Li Zhao, Sangwoo Hong, Jungwoo Lee,
- Abstract要約: textbfMulti-textbfViewtextbfPoint textbfLatent textbfAction textbfModel (textbfMVP-LAM)を提案する。
MVP-LAMは、時間同期マルチビュービデオから、地道的なアクションについて非常に有意義な個別の潜伏アクションを学習する。
橋梁V2では、MVP-LAMはよりアクション中心の潜伏行動を生成し、より高信頼な相互情報を得るとともに、アクション予測を改善した。
- 参考スコア(独自算出の注目度): 11.87290433247564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning \emph{latent actions} from diverse human videos enables scaling robot learning beyond embodiment-specific robot datasets, and these latent actions have recently been used as pseudo-action labels for vision-language-action (VLA) model pretraining. To make VLA pretraining effective, latent actions should contain information about the underlying agent's actions despite the absence of ground-truth labels. We propose \textbf{M}ulti-\textbf{V}iew\textbf{P}oint \textbf{L}atent \textbf{A}ction \textbf{M}odel (\textbf{MVP-LAM}), which learns discrete latent actions that are highly informative about ground-truth actions from time-synchronized multi-view videos. MVP-LAM trains latent actions with a \emph{cross-viewpoint reconstruction} objective, so that a latent action inferred from one view must explain the future in another view, reducing reliance on viewpoint-specific cues. On Bridge V2, MVP-LAM produces more action-centric latent actions, achieving higher mutual information with ground-truth actions and improved action prediction, including under out-of-distribution evaluation. Finally, pretraining VLAs with MVP-LAM latent actions improves downstream manipulation performance on the SIMPLER and LIBERO-Long benchmarks.
- Abstract(参考訳): 多様な人間のビデオから‘emph{latent action’を学習することで、ロボットの学習を実施できる。
VLAの事前訓練を効果的にするためには、潜伏行動には基礎となるエージェントの行動に関する情報が含まれるべきである。
本稿では, 時間同期マルチビュービデオから, 地中構造を重んじる個別の潜伏動作を学習し, 時間同期型マルチビュービデオから学習する。
MVP-LAM は \emph{cross-view-point reconstruction} 目標を用いて潜伏行動の訓練を行うため、ある視点から推論された潜伏行動は、別の視点で未来を説明する必要がある。
橋梁V2では、MVP-LAMはよりアクション中心の潜伏行動を生成し、より高信頼な相互情報を実現し、アウト・オブ・ディストリビューション評価を含む行動予測を改善した。
最後に、MVP-LAM遅延アクションによるVLAの事前トレーニングにより、SIMPLERとLIBERO-Longベンチマークの下流操作性能が向上する。
関連論文リスト
- CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment [30.601466217201253]
既存の行動品質評価(AQA)手法は、様々な行動を評価するために、主にビデオレベルで深い表現を学習する。
ビデオにおけるアクションのきめ細かい理解が欠如しているため、信頼性と解釈性が低く、オリンピックのダイビングイベントのような厳格な応用には不十分である。
我々は、アクションのきめ細かい理解には、時間と空間の両方でアクションを知覚し解析する必要があると論じ、これはAQA手法の信頼性と解釈可能性の鍵でもある。
論文 参考訳(メタデータ) (2024-05-11T02:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。