論文の概要: Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization
- arxiv url: http://arxiv.org/abs/2502.04686v2
- Date: Mon, 09 Jun 2025 07:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.834447
- Title: Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization
- Title(参考訳): 反復潜在空間政策最適化を用いたWerewolfゲームにおけるストラテジック言語エージェントの学習
- Authors: Zelai Xu, Wanjun Gu, Chao Yu, Yi Wu, Yu Wang,
- Abstract要約: 戦略言語エージェントを構築するために,ゲーム理論の手法と微調整を組み合わせた反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
Werewolfゲームの実験では、我々のエージェントは、性能を改善し、既存のWerewolfエージェントを上回るパフォーマンスで戦略空間を反復的に拡張している。
- 参考スコア(独自算出の注目度): 13.496120603859701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents have recently demonstrated impressive capabilities in various domains like open-ended conversation and multi-step decision-making. However, it remains challenging for these agents to solve strategic language games, such as Werewolf, which demand both strategic decision-making and free-form language interactions. Existing LLM agents often suffer from intrinsic bias in their action distributions and limited exploration of the unbounded text action space, resulting in suboptimal performance. To address these challenges, we propose Latent Space Policy Optimization (LSPO), an iterative framework that combines game-theoretic methods with LLM fine-tuning to build strategic language agents. LSPO leverages the observation that while the language space is combinatorially large, the underlying strategy space is relatively compact. We first map free-form utterances into a finite latent strategy space, yielding an abstracted extensive-form game. Then we apply game-theoretic methods like Counterfactual Regret Minimization (CFR) to optimize the policy in the latent space. Finally, we fine-tune the LLM via Direct Preference Optimization (DPO) to align with the learned policy. By iteratively alternating between these steps, our LSPO agents progressively enhance both strategic reasoning and language communication. Experiment on the Werewolf game shows that our agents iteratively expand the strategy space with improving performance and outperform existing Werewolf agents, underscoring their effectiveness in free-form language games with strategic interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、最近、オープンエンド会話やマルチステップ意思決定など、様々な領域で印象的な機能を示している。
しかし、これらのエージェントが、戦略的意思決定と自由形式の言語相互作用の両方を要求するWerewolfのような戦略的言語ゲームを解決することは、依然として困難である。
既存のLLMエージェントは、その動作分布の固有のバイアスに悩まされ、非有界なテキストアクション空間の探索が制限され、亜最適性能がもたらされる。
これらの課題に対処するため,戦略言語エージェントを構築するためにゲーム理論手法とLLMファインチューニングを組み合わせた反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
LSPOは、言語空間は組合せ的に大きいが、基礎となる戦略空間は比較的コンパクトである、という観察を活用する。
まず、自由形式の発話を有限潜在戦略空間にマッピングし、抽象化された広義のゲームを生成する。
次に,CFR(Counterfactual Regret Minimization)のようなゲーム理論を適用し,潜在空間におけるポリシーを最適化する。
最後に、学習したポリシーに合わせるために、DPO(Direct Preference Optimization)を介してLLMを微調整する。
これらのステップを反復的に交互に切り替えることで、LSPOエージェントは戦略的推論と言語コミュニケーションの両方を徐々に強化します。
Werewolfゲームの実験により、我々のエージェントは戦略空間を反復的に拡張し、性能を改善し、既存のWerewolfエージェントより優れており、戦略的な相互作用を持つ自由形式の言語ゲームにおけるそれらの効果を裏付けている。
関連論文リスト
- Simulation of Language Evolution under Regulated Social Media Platforms: A Synergistic Approach of Large Language Models and Genetic Algorithms [6.550725258692423]
ソーシャルメディアプラットフォームは、しばしばユーザーコンテンツを穏健化するために制限的なポリシーを課し、創造的回避言語戦略の出現を促している。
本稿では,規制制約下での言語戦略の反復的進化をシミュレートする,Large Language Models (LLM)に基づくマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T14:59:27Z) - Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。
本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。
このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文 参考訳(メタデータ) (2025-02-24T17:26:07Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation [6.550725258692423]
Twitter、Reddit、Sina Weiboといったソーシャルメディアプラットフォームは、グローバルコミュニケーションにおいて重要な役割を担っているが、地理的に敏感な地域では厳しい規制に直面していることが多い。
本稿では,Large Language Models (LLM) を用いたマルチエージェント・シミュレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-05T09:02:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management [36.254564021059515]
強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
論文 参考訳(メタデータ) (2023-02-21T18:02:20Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。