論文の概要: Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game
- arxiv url: http://arxiv.org/abs/2310.18940v1
- Date: Sun, 29 Oct 2023 09:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:12:48.804366
- Title: Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game
- Title(参考訳): ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント
- Authors: Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu
- Abstract要約: 戦略的言語エージェントを開発するための強化学習(RL)を利用した新しいフレームワークを提案する。
我々のエージェントは、まず大きな言語モデル(LLM)を使用して、潜在的な詐欺を推論することで、一般的な言語ゲームであるWerewolfに取り組みます。
候補者から行動を選択するRL政策は、エージェントの意思決定能力を高めるために、人口ベースの訓練によって学習される。
- 参考スコア(独自算出の注目度): 40.438765131992525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents built with large language models (LLMs) have recently achieved great
advancements. However, most of the efforts focus on single-agent or cooperative
settings, leaving more general multi-agent environments underexplored. We
propose a new framework powered by reinforcement learning (RL) to develop
strategic language agents, i.e., LLM-based agents with strategic thinking
ability, for a popular language game, Werewolf. Werewolf is a social deduction
game with hidden roles that involves both cooperation and competition and
emphasizes deceptive communication and diverse gameplay. Our agent tackles this
game by first using LLMs to reason about potential deceptions and generate a
set of strategically diverse actions. Then an RL policy, which selects an
action from the candidates, is learned by population-based training to enhance
the agents' decision-making ability. By combining LLMs with the RL policy, our
agent produces a variety of emergent strategies, achieves the highest win rate
against other LLM-based agents, and stays robust against adversarial human
players in the Werewolf game.
- Abstract(参考訳): 大規模言語モデル(LLM)で構築されたエージェントは、最近大きな進歩を遂げた。
しかし、ほとんどの取り組みはシングルエージェントまたは協調環境にフォーカスしており、より一般的なマルチエージェント環境は過小評価されている。
本研究では,戦略的思考能力を有するllmベースのエージェントを,人気のある言語ゲームであるwarwolf向けに,強化学習(rl)を活用した新しいフレームワークを提案する。
ウェアウルフ(Werewolf)は、協調と競争の両方にかかわる隠れた役割を持つ社会的推論ゲームである。
我々のエージェントはこのゲームに、まずLSMを用いて、潜在的な騙しを推論し、戦略的に多様なアクションのセットを生成する。
そして、候補者から行動を選択するrlポリシーを、エージェントの意思決定能力を高めるために人口ベースのトレーニングによって学習する。
LLMとRLポリシーを組み合わせることで、我々のエージェントは様々な創発的戦略を生み出し、他のLSMベースのエージェントに対して最も高い勝利率を達成し、Werewolfゲームにおける敵の人間プレイヤーに対して頑健である。
関連論文リスト
- Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。