論文の概要: VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2412.18194v1
- Date: Tue, 24 Dec 2024 06:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:56.887632
- Title: VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
- Title(参考訳): VLABench: 長距離推論タスクを用いた言語依存型ロボットマニピュレーションのための大規模ベンチマーク
- Authors: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu,
- Abstract要約: 本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
- 参考スコア(独自算出の注目度): 100.3234156027118
- License:
- Abstract: General-purposed embodied agents are designed to understand the users' natural instructions or intentions and act precisely to complete universal tasks. Recently, methods based on foundation models especially Vision-Language-Action models (VLAs) have shown a substantial potential to solve language-conditioned manipulation (LCM) tasks well. However, existing benchmarks do not adequately meet the needs of VLAs and relative algorithms. To better define such general-purpose tasks in the context of LLMs and advance the research in VLAs, we present VLABench, an open-source benchmark for evaluating universal LCM task learning. VLABench provides 100 carefully designed categories of tasks, with strong randomization in each category of task and a total of 2000+ objects. VLABench stands out from previous benchmarks in four key aspects: 1) tasks requiring world knowledge and common sense transfer, 2) natural language instructions with implicit human intentions rather than templates, 3) long-horizon tasks demanding multi-step reasoning, and 4) evaluation of both action policies and language model capabilities. The benchmark assesses multiple competencies including understanding of mesh\&texture, spatial relationship, semantic instruction, physical laws, knowledge transfer and reasoning, etc. To support the downstream finetuning, we provide high-quality training data collected via an automated framework incorporating heuristic skills and prior information. The experimental results indicate that both the current state-of-the-art pretrained VLAs and the workflow based on VLMs face challenges in our tasks.
- Abstract(参考訳): 汎用エンボディエージェントは、ユーザの自然な指示や意図を理解し、普遍的なタスクを完了するために正確に行動するよう設計されている。
近年,基礎モデル,特にVLA(Vision-Language-Action Model)に基づく手法は,言語条件操作(LCM)タスクをうまく解く上で大きな可能性を示している。
しかし、既存のベンチマークはVLAや相対アルゴリズムのニーズを十分に満たしていない。
このような汎用タスクをLLMの文脈でよりよく定義し、VLAの研究を進めていくために、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを提案する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
VLABenchは、以前のベンチマークから4つの重要な側面で際立っている。
1)世界知識及び常識伝達を必要とする業務
2 テンプレートではなく、暗黙の人間の意図による自然言語指示
3)多段階推論を必要とする長期業務、及び
4)アクションポリシーと言語モデル機能の評価を行った。
このベンチマークは、メッシュとコンテキストの理解、空間関係、意味的命令、物理法則、知識伝達と推論など、複数の能力を評価する。
下流の微調整を支援するために,ヒューリスティックなスキルと事前情報を含む自動フレームワークを用いて収集した高品質なトレーニングデータを提供する。
実験結果から,現在の最先端のVLAとVLMに基づくワークフローの両方が課題に直面していることが示唆された。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを13件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。
ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。
我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - From Goal-Conditioned to Language-Conditioned Agents via Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。