論文の概要: Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf
- arxiv url: http://arxiv.org/abs/2405.19946v1
- Date: Thu, 30 May 2024 11:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:47:58.265094
- Title: Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf
- Title(参考訳): 戦略的に語るための学習: 一夜のアルティメット・ウィールウルフを事例として
- Authors: Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, Jun Wang,
- Abstract要約: 有名なコミュニケーションゲーム『Werewolf』の変種として、One Night Ultimate Werewolf (ONUW) はプレイヤーが戦略的な議論ポリシーを開発する必要がある。
本稿では、強化学習(RL)によって訓練された議論政策を用いて、適切な議論手法を採用するためのRL命令言語エージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.57358844115881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication is a fundamental aspect of human society, facilitating the exchange of information and beliefs among people. Despite the advancements in large language models (LLMs), recent agents built with these often neglect the control over discussion tactics, which are essential in communication scenarios and games. As a variant of the famous communication game Werewolf, One Night Ultimate Werewolf (ONUW) requires players to develop strategic discussion policies due to the potential role changes that increase the uncertainty and complexity of the game. In this work, we first present the existence of the Perfect Bayesian Equilibria (PBEs) in two scenarios of the ONUW game: one with discussion and one without. The results showcase that the discussion greatly changes players' utilities by affecting their beliefs, emphasizing the significance of discussion tactics. Based on the insights obtained from the analyses, we propose an RL-instructed language agent framework, where a discussion policy trained by reinforcement learning (RL) is employed to determine appropriate discussion tactics to adopt. Our experimental results on several ONUW game settings demonstrate the effectiveness and generalizability of our proposed framework.
- Abstract(参考訳): コミュニケーションは人間社会の基本的な側面であり、情報と信念の交換を促進する。
大規模言語モデル(LLM)の進歩にもかかわらず、近年のエージェントは、コミュニケーションシナリオやゲームに不可欠な議論戦術の制御を無視することが多い。
有名なコミュニケーションゲーム『Werewolf』の変種として、One Night Ultimate Werewolf (ONUW) はプレイヤーがゲームの不確実性と複雑さを増大させる潜在的な役割の変化のために戦略的な議論ポリシーを開発することを要求している。
本研究は,ONUWゲームにおける完全ベイズ平衡 (PBE) の存在を2つのシナリオとして提示する。
その結果、議論はプレイヤーの信念に影響を与え、議論戦術の重要性を強調することで、プレイヤーの効用を大きく変えることが明らかとなった。
分析から得られた知見に基づき、強化学習(RL)によって訓練された議論政策を取り入れ、適切な議論手法を採用するためのRL指示言語エージェントフレームワークを提案する。
いくつかのONUWゲーム設定実験の結果,提案フレームワークの有効性と一般化性を示した。
関連論文リスト
- Enhancing Dialogue Generation in Werewolf Game Through Situation Analysis and Persuasion Strategies [1.7725414095035827]
本稿では,LLMをベースとしたWerewolf Game AIを提案する。
様々な説得戦略が採用され、他のプレイヤーを効果的にその行動に合わせるように説得する。
論文 参考訳(メタデータ) (2024-08-29T14:49:13Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - CivRealm: A Learning and Reasoning Odyssey in Civilization for
Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。
CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (2024-01-19T09:14:11Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf [19.39740531672788]
通信ゲームにおいて,大規模言語モデルに係わるチューニング不要なフレームワークを提案する。
代表的で広く研究されているコミュニケーションゲームWerewolf'の実証的研究は、我々のフレームワークがLLMのパラメータを調整せずにWerewolfゲームを効果的にプレイできることを実証している。
論文 参考訳(メタデータ) (2023-09-09T01:56:40Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。