論文の概要: VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2506.17561v1
- Date: Sat, 21 Jun 2025 03:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.476634
- Title: VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models
- Title(参考訳): VLA-OS:ビジョン・ランゲージ・アクションモデルにおける計画表現とパラダイムの構造化と分割
- Authors: Chongkai Gao, Zixuan Liu, Zhenghao Chi, Junshan Huang, Xin Fei, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Zhirui Fang, Zeyu Jiang, Lin Shao,
- Abstract要約: VLA-OSは,様々なタスク計画パラダイムを備えた統一型VLAアーキテクチャシリーズである。
様々な対象カテゴリ(剛体・変形可能)、視覚的モーダル性(2D・3D)、環境(シミュレーション・実世界)、エンドエフェクター(グリッパー・デキスタスハンド)の総合的な実験スイートを設計する。
- 参考スコア(独自算出の注目度): 9.376810354990079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on Vision-Language-Action (VLA) models have shifted from the end-to-end action-generation paradigm toward a pipeline involving task planning followed by action generation, demonstrating improved performance on various complex, long-horizon manipulation tasks. However, existing approaches vary significantly in terms of network architectures, planning paradigms, representations, and training data sources, making it challenging for researchers to identify the precise sources of performance gains and components to be further improved. To systematically investigate the impacts of different planning paradigms and representations isolating from network architectures and training data, in this paper, we introduce VLA-OS, a unified VLA architecture series capable of various task planning paradigms, and design a comprehensive suite of controlled experiments across diverse object categories (rigid and deformable), visual modalities (2D and 3D), environments (simulation and real-world), and end-effectors (grippers and dexterous hands). Our results demonstrate that: 1) visually grounded planning representations are generally better than language planning representations; 2) the Hierarchical-VLA paradigm generally achieves superior or comparable performance than other paradigms on task performance, pretraining, generalization ability, scalability, and continual learning ability, albeit at the cost of slower training and inference speeds.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルに関する最近の研究は、エンド・ツー・エンドのアクション・ジェネレーション・パラダイムから、タスク・プランニングとアクション・ジェネレーションを含むパイプラインへと移行し、様々な複雑なロングホライゾン操作タスクの性能向上を実証している。
しかし、既存のアプローチは、ネットワークアーキテクチャ、計画パラダイム、表現、トレーニングデータソースの観点で大きく異なり、研究者がパフォーマンス向上とコンポーネントの正確な情報源を特定することは困難である。
本稿では、ネットワークアーキテクチャとトレーニングデータから分離した異なる計画パラダイムと表現の影響を体系的に検討するため、様々なタスク計画パラダイムを具体化する統一VLAアーキテクチャシリーズであるVLA-OSを導入し、様々なオブジェクトカテゴリ(剛性と変形性)、視覚的モダリティ(2Dと3D)、環境(シミュレーションと実世界)、エンドエフェクタ(グリッパーとデキスタスハンド)にまたがる総合的な実験スイートを設計する。
私たちの結果はこう示しています。
1) 視覚的に根ざした計画表現は、一般的に言語計画表現より優れている。
2)階層型-VLAパラダイムは,学習速度や推論速度の遅さを犠牲にして,タスクパフォーマンス,事前学習,一般化能力,拡張性,継続的な学習能力において,他のパラダイムよりも優れた,あるいは同等のパフォーマンスを実現している。
関連論文リスト
- Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。