論文の概要: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
- arxiv url: http://arxiv.org/abs/2505.06111v1
- Date: Fri, 09 May 2025 15:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.306975
- Title: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
- Title(参考訳): UniVLA: タスク中心の遅延アクションでどこでも行動することを学ぶ
- Authors: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li,
- Abstract要約: UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 32.83715417294052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.
- Abstract(参考訳): 汎用ロボットは、様々な環境において効果的に動作すべきである。
しかしながら、既存のアプローチのほとんどは、機能を強化するためにアクションアノテートされたデータのスケーリングに大きく依存しています。
結果として、それらは単一の物理的仕様に制限されることが多く、異なる実施形態や環境間で伝達可能な知識を学ぶのに苦労する。
これらの制約に対処するため、我々は、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学習するための新しいフレームワークであるUniVLAを提案する。
私たちの重要なイノベーションは、潜在アクションモデルを持つビデオからタスク中心のアクション表現を導き出すことです。
これにより、幅広い実施範囲や視点にわたる広範なデータを活用できます。
タスク非関連ダイナミクスの効果を軽減するため,言語命令を導入し,DINO特徴空間内に潜在動作モデルを確立する。
インターネットスケールのビデオから学習したジェネラリストのポリシーは、効率的な潜伏アクションデコーディングを通じて、さまざまなロボットにデプロイすることができる。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
UniVLAは1/20の事前学習計算と1/10のダウンストリームデータでOpenVLAよりも優れたパフォーマンスを実現している。
トレーニングパイプラインには、人間のビデオを含む異種データを含む連続的なパフォーマンス改善が組み込まれている。
この結果は、スケーラブルで効率的なロボットポリシー学習を促進するUniVLAの可能性を強調している。
関連論文リスト
- DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。