Fugu-MT 論文翻訳(概要): Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

論文の概要: Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

arxiv url: http://arxiv.org/abs/2310.18940v3
Date: Tue, 20 Feb 2024 01:21:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:28:08.992807
Title: Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game
Title（参考訳）: ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント
Authors: Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu
Abstract要約: 我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
参考スコア（独自算出の注目度）: 40.438765131992525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agents built with large language models (LLMs) have shown great potential across a wide range of domains. However, in complex decision-making tasks, pure LLM-based agents tend to exhibit intrinsic bias in their choice of actions, which is inherited from the model's training data and results in suboptimal performance. To develop strategic language agents, i.e., agents that generate flexible language actions and possess strong decision-making abilities, we propose a novel framework that powers LLM-based agents with reinforcement learning (RL). We consider Werewolf, a popular social deduction game, as a challenging testbed that emphasizes versatile communication and strategic gameplay. To mitigate the intrinsic bias in language actions, our agents use an LLM to perform deductive reasoning and generate a diverse set of action candidates. Then an RL policy trained to optimize the decision-making ability chooses an action from the candidates to play in the game. Extensive experiments show that our agents overcome the intrinsic bias and outperform existing LLM-based agents in the Werewolf game. We also conduct human-agent experiments and find that our agents achieve human-level performance and demonstrate strong strategic play.
Abstract（参考訳）: 大きな言語モデル(LLM)で構築されたエージェントは、幅広いドメインにわたって大きな可能性を示しています。しかしながら、複雑な意思決定タスクでは、純粋なLCMベースのエージェントは、モデルのトレーニングデータから受け継がれたアクションの選択に固有のバイアスを示す傾向にあり、その結果、最適なパフォーマンスをもたらす。柔軟な言語行動を生み出し,強い意思決定能力を有する戦略言語エージェントを開発するために,強化学習(rl)を用いたllmベースのエージェントを駆動する新しい枠組みを提案する。 Werewolfは人気の高いソーシャル推論ゲームであり、多目的コミュニケーションと戦略的ゲームプレイを重視した挑戦的なテストベッドだと考えている。言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。そして、意思決定能力を最適化するために訓練されたRLポリシーは、ゲームでプレーする候補からのアクションを選択する。広範な実験により,我々のエージェントは本質バイアスを克服し,既存のllmベースのエージェントよりも優れていた。また,人間のエージェント実験を行い,エージェントが人間レベルのパフォーマンスを達成し,強力な戦略的役割を示すことを確認した。

関連論文リスト

Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.67637003848376]
我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-05T05:45:24Z)
FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文参考訳（メタデータ） (2025-04-19T15:29:04Z)
Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization [13.496120603859701]
大規模言語モデル(LLM)ベースのエージェントは、最近、様々な領域で顕著な進歩を見せている。これらのエージェントを、戦略的意思決定と自由形式の言語相互作用の両方を必要とするWerewolfのような社会的推論ゲームに適用することは、依然として簡単ではない。本稿では,まず自由形式のテキストを離散的な潜在空間にマッピングすることで,これらの課題に対処する反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
論文参考訳（メタデータ） (2025-02-07T06:19:55Z)
DVM: Towards Controllable LLM Agents in Social Deduction Games [16.826397707182963]
大規模言語モデル(LLM)は,ソーシャル・デダクションゲーム(SDG)におけるゲームエージェントの能力を向上させる。 SDGのための制御可能なLLMエージェントを開発するための新しいフレームワークであるDVMを提案する。我々は、最も人気のあるSDGの1つであるWerewolf上で、DVMの実装を実演する。
論文参考訳（メタデータ） (2025-01-12T03:11:20Z)
From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards [12.698095783768322]
大規模言語モデル(LLM)と強化学習(RL)は、自律エージェントを構築するための強力なアプローチである。ゲーム環境の基本法則をモデル化するために,インタラクションレコードから経験を抽出する手法を提案する。
論文参考訳（メタデータ） (2024-11-24T15:57:53Z)
Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game [3.8284679578037246]
We use the language logic game Who is Undercover?' as a experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework。 MPTTは、LLMの人間的な言語表現ロジック、多次元思考、複雑なシナリオにおける自己認識の育成を目的としている。予備的な結果は、MPTTとWIUが組み合わさって、LLMの認知能力を活用して、現実社会をシミュレートできる意思決定フレームワークを作成することを示している。
論文参考訳（メタデータ） (2024-10-20T06:41:31Z)
Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search [32.657454056329875]
大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
論文参考訳（メタデータ） (2024-08-20T08:22:04Z)
Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文参考訳（メタデータ） (2024-08-05T15:36:46Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文参考訳（メタデータ） (2024-02-24T13:13:04Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文参考訳（メタデータ） (2023-10-23T14:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。