論文の概要: Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization
- arxiv url: http://arxiv.org/abs/2505.15660v2
- Date: Sat, 24 May 2025 15:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 12:08:36.601306
- Title: Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization
- Title(参考訳): クロスタスク一般化におけるビジョン・ランゲージ・アクション・マニピュレーションの限界の探索
- Authors: Jiaming Zhou, Ke Ye, Jiayi Liu, Teli Ma, Zifan Wang, Ronghe Qiu, Kun-Yu Lin, Zhilin Zhao, Junwei Liang,
- Abstract要約: AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。
X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
- 参考スコア(独自算出の注目度): 19.32522292907096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization capabilities of vision-language-action (VLA) models to unseen tasks are crucial to achieving general-purpose robotic manipulation in open-world settings. However, the cross-task generalization capabilities of existing VLA models remain significantly underexplored. To address this gap, we introduce AGNOSTOS, a novel simulation benchmark designed to rigorously evaluate cross-task zero-shot generalization in manipulation. AGNOSTOS comprises 23 unseen manipulation tasks for testing, distinct from common training task distributions, and incorporates two levels of generalization difficulty to assess robustness. Our systematic evaluation reveals that current VLA models, despite being trained on diverse datasets, struggle to generalize effectively to these unseen tasks. To overcome this limitation, we propose Cross-Task In-Context Manipulation (X-ICM), a method that conditions large language models (LLMs) on in-context demonstrations from seen tasks to predict action sequences for unseen tasks. Additionally, we introduce a dynamics-guided sample selection strategy that identifies relevant demonstrations by capturing cross-task dynamics. On AGNOSTOS, X-ICM significantly improves cross-task zero-shot generalization performance over leading VLAs. We believe AGNOSTOS and X-ICM will serve as valuable tools for advancing general-purpose robotic manipulation.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルの未確認タスクへの一般化能力は、オープンワールド環境での汎用ロボット操作の実現に不可欠である。
しかし、既存のVLAモデルのクロスタスクの一般化能力は、いまだにかなり過小評価されている。
このギャップに対処するために,演算におけるクロスタスクゼロショットの一般化を厳格に評価する新しいシミュレーションベンチマーク AGNOSTOS を導入する。
AGNOSTOSは、一般的なトレーニングタスクの分布とは異なる23の未確認操作タスクで構成され、堅牢性を評価するために2つのレベルの一般化困難を組み込んでいる。
我々の体系的評価では、現在のVLAモデルは、多様なデータセットで訓練されているにもかかわらず、これらの目に見えないタスクに効果的に一般化するのに苦労していることが明らかになっている。
この制限を克服するため,クロスタスク・インコンテキスト・マニピュレーション (X-ICM) を提案する。
さらに,クロスタスクのダイナミックスをキャプチャすることで,関連するデモを識別する動的誘導型サンプル選択戦略を導入する。
AGNOSTOSでは、X-ICMは先頭VLAよりもクロスタスクゼロショットの一般化性能を著しく向上させる。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
関連論文リスト
- Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation [14.977743061489518]
我々は,汎用デキスタラス操作のための新しいデータ効率のアプローチであるObject-Focus Actor (OFA)を紹介する。
OFAは、厳密な操作タスクで観測される一貫した終端軌道を利用して、効率的なポリシートレーニングを可能にする。
OFAは10のデモで堅牢なパフォーマンスを実現し、そのデータ効率を強調している。
論文 参考訳(メタデータ) (2025-05-21T04:37:56Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents [105.13169239919272]
プリミティブレベルのロボット操作データセットであるRH20T-Pを提案する。
実際のシナリオで67種類の操作タスクをカバーする約38Kのビデオクリップが含まれている。
我々は、計画実行CGAパラダイムを標準化し、RH20T-PにRA-Pと呼ばれる典型的なベースラインを実装します。
論文 参考訳(メタデータ) (2024-03-28T17:42:54Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。