論文の概要: Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game
- arxiv url: http://arxiv.org/abs/2310.18940v3
- Date: Tue, 20 Feb 2024 01:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:28:08.992807
- Title: Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game
- Title(参考訳): ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント
- Authors: Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu
- Abstract要約: 我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
- 参考スコア(独自算出の注目度): 40.438765131992525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents built with large language models (LLMs) have shown great potential
across a wide range of domains. However, in complex decision-making tasks, pure
LLM-based agents tend to exhibit intrinsic bias in their choice of actions,
which is inherited from the model's training data and results in suboptimal
performance. To develop strategic language agents, i.e., agents that generate
flexible language actions and possess strong decision-making abilities, we
propose a novel framework that powers LLM-based agents with reinforcement
learning (RL). We consider Werewolf, a popular social deduction game, as a
challenging testbed that emphasizes versatile communication and strategic
gameplay. To mitigate the intrinsic bias in language actions, our agents use an
LLM to perform deductive reasoning and generate a diverse set of action
candidates. Then an RL policy trained to optimize the decision-making ability
chooses an action from the candidates to play in the game. Extensive
experiments show that our agents overcome the intrinsic bias and outperform
existing LLM-based agents in the Werewolf game. We also conduct human-agent
experiments and find that our agents achieve human-level performance and
demonstrate strong strategic play.
- Abstract(参考訳): 大きな言語モデル(LLM)で構築されたエージェントは、幅広いドメインにわたって大きな可能性を示しています。
しかしながら、複雑な意思決定タスクでは、純粋なLCMベースのエージェントは、モデルのトレーニングデータから受け継がれたアクションの選択に固有のバイアスを示す傾向にあり、その結果、最適なパフォーマンスをもたらす。
柔軟な言語行動を生み出し,強い意思決定能力を有する戦略言語エージェントを開発するために,強化学習(rl)を用いたllmベースのエージェントを駆動する新しい枠組みを提案する。
Werewolfは人気の高いソーシャル推論ゲームであり、多目的コミュニケーションと戦略的ゲームプレイを重視した挑戦的なテストベッドだと考えている。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
そして、意思決定能力を最適化するために訓練されたRLポリシーは、ゲームでプレーする候補からのアクションを選択する。
広範な実験により,我々のエージェントは本質バイアスを克服し,既存のllmベースのエージェントよりも優れていた。
また,人間のエージェント実験を行い,エージェントが人間レベルのパフォーマンスを達成し,強力な戦略的役割を示すことを確認した。
関連論文リスト
- Agent-Pro: Learning to Evolve via Policy-Level Reflection and
Optimization [55.29142200038241]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。