論文の概要: DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments
- arxiv url: http://arxiv.org/abs/2503.06047v1
- Date: Sat, 08 Mar 2025 04:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:34.473599
- Title: DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments
- Title(参考訳): DSGBench:複雑な意思決定環境におけるLSMエージェント評価のための多段階戦略ゲームベンチマーク
- Authors: Wenjie Tang, Yuan Zhou, Erqiang Xu, Keyan Cheng, Minne Li, Liquan Xiao,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、複雑で動的なタスクの解決において、ますます人気が高まっている。
既存のベンチマークは通常、単一目的のタスクにフォーカスするか、非常に広い評価基準を使用する。
戦略的意思決定のための厳格な評価プラットフォームであるDSGBenchを紹介します。
- 参考スコア(独自算出の注目度): 6.451418207865797
- License:
- Abstract: Large Language Model~(LLM) based agents have been increasingly popular in solving complex and dynamic tasks, which requires proper evaluation systems to assess their capabilities. Nevertheless, existing benchmarks usually either focus on single-objective tasks or use overly broad assessing metrics, failing to provide a comprehensive inspection of the actual capabilities of LLM-based agents in complicated decision-making tasks. To address these issues, we introduce DSGBench, a more rigorous evaluation platform for strategic decision-making. Firstly, it incorporates six complex strategic games which serve as ideal testbeds due to their long-term and multi-dimensional decision-making demands and flexibility in customizing tasks of various difficulty levels or multiple targets. Secondly, DSGBench employs a fine-grained evaluation scoring system which examines the decision-making capabilities by looking into the performance in five specific dimensions and offering a comprehensive assessment in a well-designed way. Furthermore, DSGBench also incorporates an automated decision-tracking mechanism which enables in-depth analysis of agent behaviour patterns and the changes in their strategies. We demonstrate the advances of DSGBench by applying it to multiple popular LLM-based agents and our results suggest that DSGBench provides valuable insights in choosing LLM-based agents as well as improving their future development. DSGBench is available at https://github.com/DeciBrain-Group/DSGBench.
- Abstract(参考訳): 大規模言語モデル~(LLM)ベースのエージェントは、複雑な動的タスクの解決においてますます人気を集めており、それらの能力を評価するには適切な評価システムが必要である。
それにもかかわらず、既存のベンチマークは通常、単一目的タスクにフォーカスするか、非常に広い評価基準を使用するかのいずれかであり、複雑な意思決定タスクにおいてLLMベースのエージェントの実際の能力の包括的な検査を提供していない。
これらの課題に対処するため,戦略的意思決定のための厳格な評価プラットフォームであるDSGBenchを紹介した。
まず、様々な難易度や複数の目標のタスクをカスタマイズする際の長期的かつ多次元的な意思決定要求と柔軟性のため、理想的なテストベッドとして機能する6つの複雑な戦略ゲームが組み込まれている。
第2に,DSGBenchでは,5つの特定次元で評価を検証し,総合的な評価を適切に設計された方法で提供することによって,意思決定能力を評価する,きめ細かい評価評価システムを採用している。
さらにDSGBenchには、エージェントの動作パターンの詳細な分析と戦略の変更を可能にする自動意思決定機構も組み込まれている。
DSGBench を複数の LLM ベースのエージェントに適用することにより,DSGBench の進歩を実証し,DSGBench が LLM ベースのエージェントの選択に有用であり,今後の開発に寄与することが示唆された。
DSGBenchはhttps://github.com/DeciBrain-Group/DSGBenchで入手できる。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [9.296248945826084]
我々は,大規模言語モデルによって生成された戦略的アドバイスを用いて,戦略分類における人間のエージェント応答をシミュレートする。
我々は、雇用、ローン申請、学校入学、個人所得、公的支援プログラムの5つの重要なSCシナリオについて検討する。
次に、得られたエージェント応答と、既存の理論モデルによって生成された最良の応答を比較する。
論文 参考訳(メタデータ) (2025-01-20T01:39:03Z) - BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making [43.734386326024016]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。
本稿では,その戦略的意思決定能力を高めるため,メモリと特殊なツールを備えた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-25T23:25:10Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。