論文の概要: Evaluating Vision-Language Models as Evaluators in Path Planning
- arxiv url: http://arxiv.org/abs/2411.18711v1
- Date: Wed, 27 Nov 2024 19:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:26.782494
- Title: Evaluating Vision-Language Models as Evaluators in Path Planning
- Title(参考訳): 経路計画におけるビジョンランゲージモデルの評価
- Authors: Mohamed Aghzal, Xiang Yue, Erion Plaku, Ziyu Yao,
- Abstract要約: 大規模言語モデル(LLM)は、エンド・ツー・エンド・プランニングにおいて限定的な有効性を持つことが示されている。
本稿では,複雑な経路計画シナリオにおける計画評価器としてVLMを評価する新しいベンチマークであるPathEvalを紹介する。
分析の結果,これらのモデルがベンチマークにおいて重大な課題に直面していることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.391755396500155
- License:
- Abstract: Despite their promise to perform complex reasoning, large language models (LLMs) have been shown to have limited effectiveness in end-to-end planning. This has inspired an intriguing question: if these models cannot plan well, can they still contribute to the planning framework as a helpful plan evaluator? In this work, we generalize this question to consider LLMs augmented with visual understanding, i.e., Vision-Language Models (VLMs). We introduce PathEval, a novel benchmark evaluating VLMs as plan evaluators in complex path-planning scenarios. Succeeding in the benchmark requires a VLM to be able to abstract traits of optimal paths from the scenario description, demonstrate precise low-level perception on each path, and integrate this information to decide the better path. Our analysis of state-of-the-art VLMs reveals that these models face significant challenges on the benchmark. We observe that the VLMs can precisely abstract given scenarios to identify the desired traits and exhibit mixed performance in integrating the provided information. Yet, their vision component presents a critical bottleneck, with models struggling to perceive low-level details about a path. Our experimental results show that this issue cannot be trivially addressed via end-to-end fine-tuning; rather, task-specific discriminative adaptation of these vision encoders is needed for these VLMs to become effective path evaluators.
- Abstract(参考訳): 複雑な推論を行うという約束にもかかわらず、大規模言語モデル(LLM)はエンドツーエンドの計画において限られた効果しか示されていない。
これらのモデルがうまく計画できないなら、計画フレームワークに有用な計画評価ツールとして貢献できるだろうか?
本研究では,視覚的理解を付加したLLM(Vision-Language Models, VLM)を考えるために,この問題を一般化する。
本稿では,複雑な経路計画シナリオにおける計画評価器としてVLMを評価する新しいベンチマークであるPathEvalを紹介する。
ベンチマークでは、シナリオ記述から最適なパスの特徴を抽象化し、各パスに対する正確な低レベルの認識を示し、より良いパスを決定するためにこの情報を統合することが要求される。
最先端のVLMの解析により,これらのモデルがベンチマークにおいて重大な課題に直面していることが明らかとなった。
我々は、VLMが与えられたシナリオを正確に抽象化し、所望の特徴を識別し、提供された情報を統合する上での混合性能を示すことを観察する。
しかし、彼らのビジョンコンポーネントは重要なボトルネックを示し、モデルがパスに関する低レベルの詳細を知覚するのに苦労している。
実験結果から,この問題はエンド・ツー・エンドの微調整によっては解決できず,これらのVLMを効果的にパス評価するためには,これらの視覚エンコーダのタスク固有の識別的適応が必要であることが示された。
関連論文リスト
- Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。