論文の概要: CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2411.19650v1
- Date: Fri, 29 Nov 2024 12:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:26.177121
- Title: CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
- Title(参考訳): CogACT:ロボットマニピュレーションにおける認知と行動の相乗化のための基礎的視覚・言語・行動モデル
- Authors: Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng, Sicheng Xu, Yizhong Zhang, Xiaofan Wang, Bei Liu, Jianlong Fu, Jianmin Bao, Dong Chen, Yuanchun Shi, Jiaolong Yang, Baining Guo,
- Abstract要約: VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
- 参考スコア(独自算出の注目度): 100.25567121604382
- License:
- Abstract: The advancement of large Vision-Language-Action (VLA) models has significantly improved robotic manipulation in terms of language-guided task execution and generalization to unseen scenarios. While existing VLAs adapted from pretrained large Vision-Language-Models (VLM) have demonstrated promising generalizability, their task performance is still unsatisfactory as indicated by the low tasks success rates in different environments. In this paper, we present a new advanced VLA architecture derived from VLM. Unlike previous works that directly repurpose VLM for action prediction by simple action quantization, we propose a omponentized VLA architecture that has a specialized action module conditioned on VLM output. We systematically study the design of the action module and demonstrates the strong performance enhancement with diffusion action transformers for action sequence modeling, as well as their favorable scaling behaviors. We also conduct comprehensive experiments and ablation studies to evaluate the efficacy of our models with varied designs. The evaluation on 5 robot embodiments in simulation and real work shows that our model not only significantly surpasses existing VLAs in task performance and but also exhibits remarkable adaptation to new robots and generalization to unseen objects and backgrounds. It exceeds the average success rates of OpenVLA which has similar model size (7B) with ours by over 35% in simulated evaluation and 55% in real robot experiments. It also outperforms the large RT-2-X model (55B) by 18% absolute success rates in simulation. Code and models can be found on our project page (https://cogact.github.io/).
- Abstract(参考訳): 大規模ビジョン・ランゲージ・アクション(VLA)モデルの進歩は、言語誘導タスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を大幅に改善した。
既存のVLAは、事前訓練された大きなビジョンランゲージモデル(VLM)から適応したもので、有望な一般化性を示しているが、そのタスク性能は、異なる環境でのタスク成功率の低さによって示されるように、まだ満足できない。
本稿では,VLMから派生した新しい高度なVLAアーキテクチャを提案する。
単純なアクション量子化によるアクション予測のためにVLMを直接利用する以前の研究とは異なり、VLM出力に条件付きアクションモジュールを持つ無責任なVLAアーキテクチャを提案する。
本稿では,アクション・モジュールの設計を体系的に研究し,アクション・シーケンス・モデリングのための拡散アクション・トランスフォーマを用いた強力な性能向上と,そのスケーリング特性について述べる。
また,モデルの有効性を様々な設計で評価するために,包括的実験とアブレーション研究を実施している。
シミュレーションおよび実作業における5つのロボット具体化評価の結果、我々のモデルはタスクパフォーマンスにおいて既存のVLAを著しく上回るだけでなく、新しいロボットへの顕著な適応と、目に見えない物体や背景への一般化も示している。
シミュレーション評価では35%以上,実際のロボット実験では55%以上である。
また、大規模なRT-2-Xモデル(55B)を18%の絶対成功率で上回っている。
コードとモデルはプロジェクトのページ(https://cogact.github.io/)で参照できます。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation [7.8735930411335895]
Vision-Language-Action(VLA)モデルは、ロボット操作タスクのための統合されたソリューションである。
VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが難しい課題である。
本稿では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:49:16Z) - Towards Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation: An Empirical Study [7.8735930411335895]
視覚言語アクション(VLA)モデルは、ロボット操作を前進させる可能性について多くの注目を集めている。
VLAモデルによって提供されるエンドツーエンドの知覚制御ループにもかかわらず、そのようなモデルの能力を包括的に理解する能力は欠如している。
VLAモデルの性能を評価するために,多様なロボット操作シーンを自動的に生成するテストフレームワークであるVLATestを提案する。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。