論文の概要: ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.13180v1
- Date: Mon, 19 May 2025 14:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.657689
- Title: ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
- Title(参考訳): ViPlan: シンボル述語と視覚言語モデルによるビジュアルプランニングのベンチマーク
- Authors: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen,
- Abstract要約: シンボル述語と視覚言語モデル(VLM)を用いたビジュアルプランニングのための最初のオープンソースベンチマークであるViPlanを紹介する。
我々は,複数のサイズのオープンソースVLMファミリを,選択されたクローズドモデルとともにベンチマークし,VLMを基盤としたシンボルプランニングと,モデルを直接使用してアクションを提案する。
正確な画像のグラウンド化が不可欠であるBlocksworldでは、直接VLM計画よりも優れているという象徴的な計画があるが、家庭用ロボティクスのタスクではその逆が当てはまる。
- 参考スコア(独自算出の注目度): 8.715289208498053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating Large Language Models with symbolic planners is a promising direction for obtaining verifiable and grounded plans compared to planning in natural language, with recent works extending this idea to visual domains using Vision-Language Models (VLMs). However, rigorous comparison between VLM-grounded symbolic approaches and methods that plan directly with a VLM has been hindered by a lack of common environments, evaluation protocols and model coverage. We introduce ViPlan, the first open-source benchmark for Visual Planning with symbolic predicates and VLMs. ViPlan features a series of increasingly challenging tasks in two domains: a visual variant of the classic Blocksworld planning problem and a simulated household robotics environment. We benchmark nine open-source VLM families across multiple sizes, along with selected closed models, evaluating both VLM-grounded symbolic planning and using the models directly to propose actions. We find symbolic planning to outperform direct VLM planning in Blocksworld, where accurate image grounding is crucial, whereas the opposite is true in the household robotics tasks, where commonsense knowledge and the ability to recover from errors are beneficial. Finally, we show that across most models and methods, there is no significant benefit to using Chain-of-Thought prompting, suggesting that current VLMs still struggle with visual reasoning.
- Abstract(参考訳): 大規模言語モデルを記号的プランナーと統合することは、自然言語の計画よりも検証可能で基礎的な計画を得る上で有望な方向であり、近年では視覚言語モデル(VLM)を用いて視覚領域に拡張されている。
しかしながら, VLM と VLM を直接計画する手法との厳密な比較は, 共通環境の欠如, 評価プロトコル, モデルカバレッジの欠如によって妨げられている。
シンボル述語とVLMを用いたビジュアルプランニングのための,最初のオープンソースベンチマークであるViPlanを紹介する。
ViPlanは、古典的なBlocksworld計画問題の視覚的バリエーションと、シミュレートされた家庭用ロボティクス環境という、2つの領域でますます困難なタスクを特徴としている。
我々は,複数のサイズのオープンソースVLMファミリを,選択されたクローズドモデルとともにベンチマークし,VLMを基盤としたシンボルプランニングと,モデルを直接使用してアクションを提案する。
正確な画像のグラウンド化が不可欠であるBlocksworldでは,一般的な知識とエラーから回復する能力が有用である家庭用ロボティクスのタスクでは,その逆が当てはまる。
最後に、ほとんどのモデルやメソッドにおいて、Chain-of-Thoughtプロンプトの使用には大きなメリットはないことを示し、現在のVLMが依然として視覚的推論に苦慮していることを示唆している。
関連論文リスト
- Visual Planning: Let's Think Only with Images [30.67065689757505]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。
そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。
このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文 参考訳(メタデータ) (2025-05-16T16:17:22Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning [9.31108717722043]
視覚言語モデル(VLM)はロボットのタスク計画問題に適用されている。
DKPROMPTは、オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の利用を促すVLMを自動化する。
論文 参考訳(メタデータ) (2024-06-25T15:49:47Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。