論文の概要: How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments
- arxiv url: http://arxiv.org/abs/2403.11807v3
- Date: Tue, 3 Sep 2024 01:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 19:02:17.404282
- Title: How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments
- Title(参考訳): LLMの意思決定はどこまで進んでいるか? マルチエージェント環境におけるLLMのゲーム能力の評価
- Authors: Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang, Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu,
- Abstract要約: 本研究では,ゲーム理論のレンズを用いた大規模言語モデル(LLM)の意思決定能力について検討する。
マルチエージェント環境におけるLPMのゲーミング能力を評価するGAMA($gamma$)-Benchを紹介する。
$gamma$-Benchは8つの古典的なマルチエージェントゲームと、LLMのパフォーマンスを定量的に評価するために特別に設計されたスコアリングスキームを含んでいる。
- 参考スコア(独自算出の注目度): 83.78240828340681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing Large Language Models (LLMs). Our research investigates decision-making capabilities of LLMs through the lens of Game Theory. We focus specifically on games that support the simultaneous participation of more than two agents. We introduce GAMA($\gamma$)-Bench, which evaluates LLMs' Gaming Ability in Multi-Agent environments. $\gamma$-Bench includes eight classical multi-agent games and a scoring scheme specially designed to quantitatively assess LLMs' performance. Leveraging $\gamma$-Bench, we investigate LLMs' robustness, generalizability, and strategies for enhancement. Results reveal that while GPT-3.5 shows satisfying robustness, its generalizability is relatively limited. However, its performance can be improved through approaches such as Chain-of-Thought. Additionally, we evaluate twelve versions from six models, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. We find that Gemini-1.5-Pro outperforms other models with a score of $63.8$ out of $100$, followed by LLaMA-3.1-70B and GPT-4 with scores of $60.9$ and $60.5$, respectively. The code and experimental results are made publicly available via https://github.com/CUHK-ARISE/GAMABench.
- Abstract(参考訳): 様々な種類の能力を必要とする複雑なタスクである意思決定は、LLM(Large Language Models)を評価するための優れたフレームワークを提供する。
ゲーム理論のレンズによるLCMの意思決定能力について検討した。
2人以上のエージェントの同時参加を支援するゲームに特化しています。
LLMのマルチエージェント環境におけるゲーミング能力を評価するGAMA($\gamma$)-Benchを紹介する。
$\gamma$-Benchは8つの古典的マルチエージェントゲームと、LLMのパフォーマンスを定量的に評価するために特別に設計されたスコアリングスキームを含んでいる。
我々は$\gamma$-Benchを活用し,LLMの堅牢性,一般化可能性,拡張戦略について検討する。
その結果, GPT-3.5はロバスト性に満足するが, 一般化性は比較的限定的であることがわかった。
しかし、その性能はChain-of-Thoughtのようなアプローチによって改善できる。
さらに, GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, Qwen-2の6モデルから12バージョンの評価を行った。
Gemini-1.5-Proは、スコアが63.8ドルで100ドル、LLaMA-3.1-70BとGPT-4が60.9ドル、650.5ドルで他のモデルを上回っている。
コードと実験結果はhttps://github.com/CUHK-ARISE/GAMABench.comで公開されている。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。
我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。
我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文 参考訳(メタデータ) (2024-10-04T22:31:15Z) - MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。
多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。
LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文 参考訳(メタデータ) (2024-07-15T15:45:07Z) - Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard [0.0]
我々は,Tic-Tac-Toe,Connect Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たなベンチマークを導入する。
GitHubで利用可能なオープンソースのゲームシミュレーションコードにより、LSMは、詳細なデータファイルと競合し、生成することができる。
本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet,Google の Gemini 1.5 Pro と Gemini Flash,OpenAI の GPT-4 Turbo と GPT-4o,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。
論文 参考訳(メタデータ) (2024-07-10T16:14:34Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。