論文の概要: LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer
- arxiv url: http://arxiv.org/abs/2602.10556v1
- Date: Wed, 11 Feb 2026 06:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.505352
- Title: LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer
- Title(参考訳): LAP: ゼロショットのクロスボデーメント転送を可能にするLanguage-Action Pre-Training
- Authors: Lihan Zha, Asher J. Hancock, Mingtong Zhang, Tenny Yin, Yixuan Huang, Dhruv Shah, Allen Z. Ren, Anirudha Majumdar,
- Abstract要約: 本稿では,Language-Action Pre-Training(LAP)について紹介する。
LAPでは、学習トークン化やコストのかかるアノテーション、具体的アーキテクチャ設計は必要ありません。
LAP-3Bは平均ゼロショット成功率50%を超え、最強のビジョン・ランゲージ・アクションモデルよりも約2倍向上した。
- 参考スコア(独自算出の注目度): 18.518862486252555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-standing goal in robotics is a generalist policy that can be deployed zero-shot on new robot embodiments without per-embodiment adaptation. Despite large-scale multi-embodiment pre-training, existing Vision-Language-Action models (VLAs) remain tightly coupled to their training embodiments and typically require costly fine-tuning. We introduce Language-Action Pre-training (LAP), a simple recipe that represents low-level robot actions directly in natural language, aligning action supervision with the pre-trained vision-language model's input-output distribution. LAP requires no learned tokenizer, no costly annotation, and no embodiment-specific architectural design. Based on LAP, we present LAP-3B, which to the best of our knowledge is the first VLA to achieve substantial zero-shot transfer to previously unseen robot embodiments without any embodiment-specific fine-tuning. Across multiple novel robots and manipulation tasks, LAP-3B attains over 50% average zero-shot success, delivering roughly a 2x improvement over the strongest prior VLAs. We further show that LAP enables efficient adaptation and favorable scaling, while unifying action prediction and VQA in a shared language-action format that yields additional gains through co-training.
- Abstract(参考訳): ロボット工学における長年の目標は、身体ごとの適応なしに、新しいロボット体にゼロショットを展開できるジェネラリストのポリシーである。
大規模なマルチ・エボディメント・プレトレーニングにもかかわらず、既存のビジョン・ランゲージ・アクション・モデル(VLA)はトレーニング・エボディメントと密結合し、通常、コストのかかる微調整を必要とする。
本稿では,Language-Action Pre-Training(LAP)について紹介する。Language-Action Pre-Training(LAP)は,低レベルのロボット動作を自然言語で直接表現するシンプルなレシピで,事前学習された視覚言語モデルの入出力分布と協調して動作監視を行う。
LAPでは、学習トークン化やコストのかかるアノテーション、具体的アーキテクチャ設計は必要ありません。
LAPをベースとしたLAP-3Bは,これまでに見つからなかったロボットの体現物への実質的なゼロショット転送を実現した最初のVLAであり,エボディメント特異的な微調整は行わない。
複数の新しいロボットと操作タスクにまたがって、LAP-3Bは平均的なゼロショット成功率が50%を超え、最強のVLAよりも約2倍向上した。
さらに,LAPが効果的な適応と拡張性を実現すると同時に,協調学習による付加的な利得をもたらす共通言語行動形式において,行動予測とVQAを統一することを示す。
関連論文リスト
- VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation [76.13140980997508]
VLA(Vision-Language Action)モデルは、事前訓練された視覚言語モデル(VLM)の強い知覚能力を活用することにより、ロボット操作を著しく向上させる。
本稿では,VLMに事前訓練された小規模な行動モデルから知識を伝達することで,動作実行能力を持たせる,簡易かつ効果的な蒸留ベースフレームワークを提案する。
5つの操作課題にわたる実世界の実験において,本手法は教師モデルより一貫して優れ,82.0%の成功率(17%改善)を達成した。
論文 参考訳(メタデータ) (2025-10-10T17:59:56Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。