論文の概要: From Text to Tactic: Evaluating LLMs Playing the Game of Avalon
- arxiv url: http://arxiv.org/abs/2310.05036v1
- Date: Tue, 10 Oct 2023 03:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:17:00.940395
- Title: From Text to Tactic: Evaluating LLMs Playing the Game of Avalon
- Title(参考訳): テキストから戦術へ:アバロンのゲームをプレイするllmの評価
- Authors: Jonathan Light and Min Cai and Sheng Shen and Ziniu Hu
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントが戦略的社会的推論ゲームであるResistence Avalonをプレイする可能性を探る。
Avalonは、LLM Agentsの意思決定と言語処理能力を研究するための魅力的なテストベッドである。
マルチエージェントLLMエージェントの評価に適した総合ゲーム環境であるAvalonBenchを紹介する。
- 参考スコア(独自算出の注目度): 27.08760047599767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the potential of Large Language Models (LLMs)
Agents in playing the strategic social deduction game, Resistance Avalon.
Players in Avalon are challenged not only to make informed decisions based on
dynamically evolving game phases, but also to engage in discussions where they
must deceive, deduce, and negotiate with other players. These characteristics
make Avalon a compelling test-bed to study the decision-making and
language-processing capabilities of LLM Agents. To facilitate research in this
line, we introduce AvalonBench - a comprehensive game environment tailored for
evaluating multi-agent LLM Agents. This benchmark incorporates: (1) a game
environment for Avalon, (2) rule-based bots as baseline opponents, and (3)
ReAct-style LLM agents with tailored prompts for each role. Notably, our
evaluations based on AvalonBench highlight a clear capability gap. For
instance, models like ChatGPT playing good-role got a win rate of 22.2% against
rule-based bots playing evil, while good-role bot achieves 38.2% win rate in
the same setting. We envision AvalonBench could be a good test-bed for
developing more advanced LLMs (with self-playing) and agent frameworks that can
effectively model the layered complexities of such game environments.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) Agentsが戦略的社会的推論ゲームであるResistence Avalonをプレイする可能性について検討する。
アバロンのプレイヤーは、動的に進化するゲームフェーズに基づいて情報的な決定を行うだけでなく、他のプレイヤーと騙し、推論し、交渉しなければならない議論を行う。
これらの特徴により、アバロンはLLMエージェントの意思決定能力と言語処理能力を研究するための魅力的なテストベッドとなる。
本稿では,マルチエージェントLLMエージェントの評価に適した総合ゲーム環境であるAvalonBenchを紹介する。
本ベンチマークでは,(1)アバロンのゲーム環境,(2)ルールベースのボットをベースラインとして,(3)各ロールに適したプロンプトを持つReActスタイルのLLMエージェントを組み込んだ。
特に、AvalonBenchに基づく評価では、明確な機能ギャップが強調されています。
例えば、chatgpt playing good-roleのようなモデルはルールベースのボットに対して22.2%の勝利率を獲得し、good-role botは同じ設定で38.2%の勝利率を達成している。
AvalonBenchは、より高度なLLM(セルフプレイング)やエージェントフレームワークを開発する上で、このようなゲーム環境の階層化複雑さを効果的にモデル化するための良いテストベッドになり得ると考えています。
関連論文リスト
- How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Long-Horizon Dialogue Understanding for Role Identification in the Game
of Avalon with Large Language Models [6.176709034158014]
Avalon: The Resistanceは、プレイヤーがチームの目的を達成するためにお互いの隠れたアイデンティティを判断しなければならない社会的推論ゲームである。
オンラインテストベッドと20個の慎重に収集・ラベル付けされたゲームを含むデータセットを導入する。
そこで本研究では,LLMが6人のプレイヤー間での知覚的長期会話を利用して,各プレイヤーの目標とモチベーションを決定する能力について論じる。
論文 参考訳(メタデータ) (2023-11-09T20:04:08Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Training an Assassin AI for The Resistance: Avalon [0.0]
抵抗性:アバロン(The resistance: Avalon)は、部分的に観察可能な社会的推論ゲームである。
このゲームにAIを実装するには、各フェーズに特有の複数のコンポーネントと、ゲームにおける役割が含まれる。
論文 参考訳(メタデータ) (2022-09-19T20:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。