論文の概要: VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
- arxiv url: http://arxiv.org/abs/2506.02387v1
- Date: Tue, 03 Jun 2025 02:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.204875
- Title: VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
- Title(参考訳): VS-Bench:マルチエージェント環境における戦略的推論と意思決定のためのVLMの評価
- Authors: Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang,
- Abstract要約: マルチエージェント環境での戦略的推論と意思決定のために視覚言語モデル(VLM)を評価するベンチマークであるVisual Strategic Bench(VS-Bench)を紹介する。
VS-Benchは、協調、競争、混合モチベーションにまたがる8つのヴィジュアルグラウンド環境で構成されている。
本稿では,次の行動予測精度による戦略的推論のオフライン評価と,正規化エピソードリターンによる意思決定のオンライン評価の2つの相補的評価次元について考察する。
- 参考スコア(独自算出の注目度): 28.130233468428397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Vision Language Models (VLMs) have expanded their capabilities to interactive agent tasks, yet existing benchmarks remain limited to single-agent or text-only environments. In contrast, real-world scenarios often involve multiple agents interacting within rich visual and linguistic contexts, posing challenges with both multimodal observations and strategic interactions. To bridge this gap, we introduce Visual Strategic Bench (VS-Bench), a multimodal benchmark that evaluates VLMs for strategic reasoning and decision-making in multi-agent environments. VS-Bench comprises eight vision-grounded environments spanning cooperative, competitive, and mixed-motive interactions, designed to assess agents' ability to predict others' future moves and optimize for long-term objectives. We consider two complementary evaluation dimensions, including offline evaluation of strategic reasoning by next-action prediction accuracy and online evaluation of decision-making by normalized episode return. Extensive experiments of fourteen leading VLMs reveal a significant gap between current models and optimal performance, with the best models attaining 47.8% prediction accuracy and 24.3% normalized return. We further conduct in-depth analyses on multimodal observations, test-time scaling, social behaviors, and failure cases of VLM agents. By standardizing the evaluation and highlighting the limitations of existing models, we envision VS-Bench as a foundation for future research on strategic multimodal agents. Code and data are available at https://vs-bench.github.io.
- Abstract(参考訳): ビジョン言語モデル(VLM)の最近の進歩は、インタラクティブなエージェントタスクにその能力を拡張しているが、既存のベンチマークはシングルエージェントやテキストのみの環境に限られている。
対照的に、現実世界のシナリオは、リッチな視覚的および言語的コンテキスト内で相互作用する複数のエージェントを伴い、マルチモーダルな観察と戦略的相互作用の両方で課題を提起する。
このギャップを埋めるために、マルチエージェント環境での戦略的推論と意思決定のためにVLMを評価するマルチモーダルベンチマークであるVisual Strategic Bench(VS-Bench)を紹介する。
VS-Benchは、協力的、競争的、混合的なモチベーションにまたがる8つの視覚的な環境で構成され、エージェントが他のエージェントの将来の動きを予測し、長期的な目的のために最適化する能力を評価するように設計されている。
本稿では,次の行動予測精度による戦略的推論のオフライン評価と,正規化エピソードリターンによる意思決定のオンライン評価の2つの相補的評価次元について考察する。
14基のVLMの大規模な実験では、現在のモデルと最適な性能の間に大きなギャップがあり、最良のモデルでは47.8%の予測精度と24.3%の正規化リターンが達成された。
さらに, VLMエージェントのマルチモーダル観察, テストタイムスケーリング, 社会的行動, 障害事例の詳細な分析を行った。
既存のモデルの評価の標準化と限界の強調により、戦略的マルチモーダルエージェントの研究の基盤としてVS-Benchを構想する。
コードとデータはhttps://vs-bench.github.io.comで公開されている。
関連論文リスト
- Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。