論文の概要: Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization
- arxiv url: http://arxiv.org/abs/2502.04686v1
- Date: Fri, 07 Feb 2025 06:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:45.072004
- Title: Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization
- Title(参考訳): 反復潜在空間政策最適化を用いたWerewolfゲームにおけるストラテジック言語エージェントの学習
- Authors: Zelai Xu, Wanjun Gu, Chao Yu, Yi Wu, Yu Wang,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、最近、様々な領域で顕著な進歩を見せている。
これらのエージェントを、戦略的意思決定と自由形式の言語相互作用の両方を必要とするWerewolfのような社会的推論ゲームに適用することは、依然として簡単ではない。
本稿では,まず自由形式のテキストを離散的な潜在空間にマッピングすることで,これらの課題に対処する反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
- 参考スコア(独自算出の注目度): 13.496120603859701
- License:
- Abstract: Large language model (LLM)-based agents have recently shown impressive progress in a variety of domains, including open-ended conversation and multi-step decision-making. However, applying these agents to social deduction games such as Werewolf, which requires both strategic decision-making and free-form language interaction, remains non-trivial. Traditional methods based on Counterfactual Regret Minimization (CFR) or reinforcement learning (RL) typically depend on a predefined action space, making them unsuitable for language games with unconstrained text action space. Meanwhile, pure LLM-based agents often suffer from intrinsic biases and require prohibitively large datasets for fine-tuning. We propose Latent Space Policy Optimization (LSPO), an iterative framework that addresses these challenges by first mapping free-form text to a discrete latent space, where methods like CFR and RL can learn strategic policy more effectively. We then translate the learned policy back into natural language dialogues, which are used to fine-tune an LLM via Direct Preference Optimization (DPO). By iteratively alternating between these stages, our LSPO agent progressively enhances both strategic reasoning and language communication. Experiment results on the Werewolf game show that our method improves the agent's performance in each iteration and outperforms existing Werewolf agents, underscoring its promise for free-form language decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、最近、オープンエンド会話やマルチステップ意思決定など、様々な領域で顕著な進歩を見せている。
しかし、戦略的意思決定と自由形式の言語相互作用の両方を必要とするWerewolfのような社会的推論ゲームにこれらのエージェントを適用することは、依然として簡単ではない。
従来のCFRや強化学習(RL)に基づく手法は、通常、事前に定義されたアクション空間に依存しており、制約のないテキストアクション空間を持つ言語ゲームには適さない。
一方、純粋なLCMベースのエージェントは固有のバイアスに悩まされることが多く、微調整には極めて大きなデータセットを必要とする。
CFRやRLといった手法がより効果的に戦略方針を学習できるような、自由形式のテキストを離散的な潜在空間にマッピングすることで、これらの課題に対処する反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
次に、学習したポリシーを自然言語対話に変換し、直接優先度最適化(DPO)を介してLLMを微調整する。
これらの段階を反復的に交互に切り替えることで,LSPOエージェントは戦略的推論と言語コミュニケーションの両方を段階的に強化する。
Werewolf ゲームにおける実験結果から,本手法は各イテレーションにおけるエージェントの性能を向上し,既存の Werewolf エージェントよりも優れており,自由言語決定の公約を裏付けている。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation [6.550725258692423]
Twitter、Reddit、Sina Weiboといったソーシャルメディアプラットフォームは、グローバルコミュニケーションにおいて重要な役割を担っているが、地理的に敏感な地域では厳しい規制に直面していることが多い。
本稿では,Large Language Models (LLM) を用いたマルチエージェント・シミュレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-05T09:02:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf [19.39740531672788]
通信ゲームにおいて,大規模言語モデルに係わるチューニング不要なフレームワークを提案する。
代表的で広く研究されているコミュニケーションゲームWerewolf'の実証的研究は、我々のフレームワークがLLMのパラメータを調整せずにWerewolfゲームを効果的にプレイできることを実証している。
論文 参考訳(メタデータ) (2023-09-09T01:56:40Z) - LaDA: Latent Dialogue Action For Zero-shot Cross-lingual Neural Network
Language Modeling [20.002861239367704]
言語間適応は限られた資源を持つ音声言語理解システムにおいて有効であることが証明されている。
既存の方法はしばしばインテント検出やスロットフィリングに不満足である。
復号化戦略を最適化するために、潜在対話アクション層が提案されている。
論文 参考訳(メタデータ) (2023-08-05T15:51:45Z) - Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management [36.254564021059515]
強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
論文 参考訳(メタデータ) (2023-02-21T18:02:20Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。