論文の概要: OpenVLA: An Open-Source Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2406.09246v2
- Date: Wed, 4 Sep 2024 02:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:31:44.666580
- Title: OpenVLA: An Open-Source Vision-Language-Action Model
- Title(参考訳): OpenVLA: オープンソースのビジョンランゲージ・アクションモデル
- Authors: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn,
- Abstract要約: 我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
- 参考スコア(独自算出の注目度): 131.74098076670103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
- Abstract(参考訳): インターネット規模の視覚言語データと多様なロボットデモの組み合わせで事前訓練された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性がある。
しかし、ロボット工学にVLAを広く採用することは困難である。
1)既存のVLAは、ほとんど閉鎖されており、一般にはアクセスできない。
2) 以前の作業では、新しいタスクのVLAを効率的に微調整する方法を探索することができない。
これらの課題に対処するため、我々はOpenVLAを紹介した。OpenVLAは7BパラメータのオープンソースVLAで、現実世界の970kのロボットデモの多様なコレクションをトレーニングしている。
OpenVLAは、DINOv2とSigLIPの事前学習機能を融合したビジュアルエンコーダを備えたLlama 2言語モデルの上に構築されている。
追加のデータ多様性と新しいモデルコンポーネントの産物として、OpenVLAは一般的な操作の強力な結果を示し、RT-2-X(55B)のようなクローズドモデルよりも16.5%向上し、29のタスクで絶対的なタスク成功率と複数のロボットの実施率、パラメータが7倍少ない。
さらに、複数のオブジェクトと強力な言語接地能力を含むマルチタスク環境において、特に強力な一般化結果が得られ、拡散政策のような非スクラッチな模倣学習方法よりも20.4%向上することを示す。
また、計算効率についても検討し、別のコントリビューションとして、OpenVLAは最新の低ランク適応手法により、コンシューマGPU上で微調整が可能であり、ダウンストリームの成功率を損なうことなく、量子化によって効率的に機能することを示す。
最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットで大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchコードベースをリリースします。
関連論文リスト
- Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning [47.37717859805702]
マルチステージ圧縮と15B OpenBAモデルからの継続事前学習から派生した3.4BモデルであるOpenBA-V2を紹介する。
OpenBA-V2は、より多くのデータ、より柔軟な訓練目標、レイヤープルーニング、ニューラルプルーニング、ボキャブラリプルーニングといった技術を利用して、パフォーマンス損失を最小限に抑えた77.3%の圧縮速度を達成する。
論文 参考訳(メタデータ) (2024-05-09T17:53:28Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - ManagerTower: Aggregating the Insights of Uni-Modal Experts for
Vision-Language Representation Learning [73.47165576175541]
2tower Vision-Language (VL)モデルは、様々な下流タスクに有望な改善を示している。
異なるレベルの訓練済みユニモーダル専門家の洞察を収集し、組み合わせた、新しいVLモデルアーキテクチャであるManageTowerを提案する。
論文 参考訳(メタデータ) (2023-05-31T18:23:57Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。