Fugu-MT 論文翻訳(概要): OpenVLA: An Open-Source Vision-Language-Action Model

論文の概要: OpenVLA: An Open-Source Vision-Language-Action Model

arxiv url: http://arxiv.org/abs/2406.09246v1
Date: Thu, 13 Jun 2024 15:46:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 17:05:04.062633
Title: OpenVLA: An Open-Source Vision-Language-Action Model
Title（参考訳）: OpenVLA: オープンソースのビジョンランゲージ・アクションモデル
Authors: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn,
Abstract要約: 我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
参考スコア（独自算出の注目度）: 131.74098076670103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
Abstract（参考訳）: インターネット規模の視覚言語データと多様なロボットデモの組み合わせで事前訓練された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性がある。しかし、ロボット工学にVLAを広く採用することは困難である。 1)既存のVLAは、ほとんど閉鎖されており、一般にはアクセスできない。 2) 以前の作業では、新しいタスクのVLAを効率的に微調整する方法を探索することができない。これらの課題に対処するため、我々はOpenVLAを紹介した。OpenVLAは7BパラメータのオープンソースVLAで、現実世界の970kのロボットデモの多様なコレクションをトレーニングしている。 OpenVLAは、DINOv2とSigLIPの事前学習機能を融合したビジュアルエンコーダを備えたLlama 2言語モデルの上に構築されている。追加のデータ多様性と新しいモデルコンポーネントの産物として、OpenVLAは一般的な操作の強力な結果を示し、RT-2-X(55B)のようなクローズドモデルよりも16.5%向上し、29のタスクで絶対的なタスク成功率と複数のロボットの実施率、パラメータが7倍少ない。さらに、複数のオブジェクトと強力な言語接地能力を含むマルチタスク環境において、特に強力な一般化結果が得られ、拡散政策のような非スクラッチな模倣学習方法よりも20.4%向上することを示す。また、計算効率についても検討し、別のコントリビューションとして、OpenVLAは最新の低ランク適応手法により、コンシューマGPU上で微調整が可能であり、ダウンストリームの成功率を損なうことなく、量子化によって効率的に機能することを示す。最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットで大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchコードベースをリリースします。

関連論文リスト

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model [59.32370587806426]
VLA(Vision-Language-Action Model)は、一般化可能なビジュモータ制御ポリシーを学習するための強力なツールとして登場している。我々は、ピクセルレベルの推論とテキストと視覚入力によるマルチモーダルプロンプトの両方をサポートするように設計された最初のVLAモデルであるPixelVLAを紹介する。提案手法は,マルチスケールの画素認識エンコーダと視覚的プロンプトエンコーダを統合した,新しいビジュモータ・インストラクション・チューニング・フレームワークに基づいている。
論文参考訳（メタデータ） (2025-11-03T13:39:37Z)
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。最小限のパラメータを付加したソフトプロンプト手法を提案する。 0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文参考訳（メタデータ） (2025-10-11T16:20:17Z)
EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [54.28635581240747]
VLA(Vision-Language-Action)モデルは、事前訓練された視覚表現と言語表現を活用することで、高度な汎用ロボット操作を実現する。 ForceVLAは、外力センシングをVLAシステム内の第一級のモダリティとして扱う。提案手法は,器用な操作のためのマルチモーダル統合の重要性を強調し,身体知能ロボット制御のための新しいベンチマークを設定する。
論文参考訳（メタデータ） (2025-05-28T09:24:25Z)
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文参考訳（メタデータ） (2025-05-09T15:11:13Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:25:56Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文参考訳（メタデータ） (2024-10-02T19:29:24Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。