Fugu-MT 論文翻訳(概要): Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild

論文の概要: Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild

arxiv url: http://arxiv.org/abs/2602.21736v1
Date: Wed, 25 Feb 2026 09:46:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.705208
Title: Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild
Title（参考訳）: 協調型潜伏行動:野生でのスケーラブルなVLA事前訓練に向けて
Authors: Hao Luo, Ye Wang, Wanpeng Zhang, Haoqi Yuan, Yicheng Feng, Haiweng Xu, Sipeng Zheng, Zongqing Lu,
Abstract要約: JALAは,協調型潜在行動学習のための事前学習フレームワークである。 We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
参考スコア（独自算出の注目度）: 37.43820830488286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite progress, Vision-Language-Action models (VLAs) are limited by a scarcity of large-scale, diverse robot data. While human manipulation videos offer a rich alternative, existing methods are forced to choose between small, precisely-labeled datasets and vast in-the-wild footage with unreliable hand tracking labels. We present JALA, a pretraining framework that learns Jointly-Aligned Latent Actions. JALA bypasses full visual dynamic reconstruction, instead learns a predictive action embedding aligned with both inverse dynamics and real actions. This yields a transition-aware, behavior-centric latent space for learning from heterogeneous human data. We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000 hours) blending laboratory and in-the-wild footage. Experiments demonstrate that JALA generates more realistic hand motions in both controlled and unconstrained scenarios, significantly improving downstream robot manipulation performance in both simulation and real-world tasks. These results indicate that jointly-aligned latent actions offer a scalable pathway for VLA pretraining from human data.
Abstract（参考訳）: 進歩にもかかわらず、VLA(Vision-Language-Action Model)は大規模で多様なロボットデータの不足によって制限されている。人間の操作ビデオは、リッチな代替手段を提供するが、既存の方法では、小さく正確にラベル付けされたデータセットと、信頼性の低いハンドトラッキングラベルを備えた、広い範囲の映像を選択せざるを得ない。 JALAは,協調型潜在行動学習のための事前学習フレームワークである。 JALAは完全な視覚的ダイナミックリストラクションをバイパスし、代わりに、逆ダイナミクスと実際のアクションの両方に合わせた予測的なアクション埋め込みを学ぶ。これにより、異質な人間のデータから学ぶための、トランジッションアウェアな行動中心の潜在空間が得られる。 We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。実験により、JALAは、制御されたシナリオと制約されていないシナリオの両方でより現実的な手の動きを生成し、シミュレーションと実世界のタスクの両方において、下流ロボットの操作性能を大幅に改善することが示された。これらの結果は,人間のデータからVLAを事前学習するためのスケーラブルな経路を提供することを示す。

関連論文リスト

CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。 CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-07T16:26:33Z)
Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文参考訳（メタデータ） (2025-12-19T19:07:53Z)
METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文参考訳（メタデータ） (2025-11-21T16:32:36Z)
Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文参考訳（メタデータ） (2025-10-24T15:39:31Z)
Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文参考訳（メタデータ） (2025-09-22T21:19:10Z)
Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。 PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。 ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-08-13T13:54:51Z)
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文参考訳（メタデータ） (2025-07-21T13:19:09Z)
AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文参考訳（メタデータ） (2025-06-17T05:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。