論文の概要: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game
- arxiv url: http://arxiv.org/abs/2404.01602v2
- Date: Thu, 29 Aug 2024 08:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:18:41.383487
- Title: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game
- Title(参考訳): Helmsman of the Masses? : Werewolf Gameにおける大規模言語モデルのオピニオンリーダーシップの評価
- Authors: Silin Du, Xiaowei Zhang,
- Abstract要約: Werewolfのゲームをシミュレーションプラットフォームとして使用して,大規模言語モデル(LLM)の意見リーダーシップを評価する。
ゲームには保安官の役割が含まれ、議論を要約し、決定オプションを推奨する。
我々は、意見リーダーの批判的特徴に基づいて、2つの新しい指標を考案する。
- 参考スコア(独自算出の注目度): 1.4565642534804486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been largely overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game includes the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players' decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM's grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs, and few LLMs possess the capacity for opinion leadership.
- Abstract(参考訳): 大規模言語モデル (LLM) は、社会的誘因ゲームにおいて記憶可能な戦略的行動を示す。
しかし、LLMをベースとしたエージェントが提示する意見のリーダーシップの重要性はほとんど見落とされ、マルチエージェントやヒューマン・AIのインタラクション・セッティングにおける実践的応用に欠かせないものとなっている。
野党指導者は、社会集団内の他人の信念や行動に顕著な影響を与える個人である。
本研究では, LLM の意見指導力を評価するため, Werewolf ゲームをシミュレーションプラットフォームとして利用する。
ゲームには保安官の役割が含まれており、議論を要約し、決定オプションを推奨する。
我々は,シェリフの役割を統合する枠組みを開発し,世論指導者の批判的特徴に基づく2つの新しい指標を考案する。
第1の尺度は、意見リーダーの信頼性を測定し、第2の尺度は、他のプレーヤーの判断に対する意見リーダーの影響を評価する。
異なるスケールのLLMを評価するために、広範囲な実験を行う。
さらに, Werewolf 質問回答データセット (WWQA) を収集し, LLM によるゲームルールの把握と強化を行うとともに,人間の参加者を組み込んでさらなる分析を行う。
その結果、Werewolf ゲームは LLM の意見リーダーシップを評価するのに適したテストベッドであり、意見リーダーシップの能力を持つ LLM は少ないことが示唆された。
関連論文リスト
- Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction [3.350801757799469]
Werewolf Arenaは大規模言語モデル(LLM)を評価するためのフレームワークである
ウェアウルフ・アリーナでは、LSMは互いに競い合っており、ゲームにおける詐欺、妄想、説得の複雑なダイナミクスをナビゲートしている。
Werewolf Arenaの実用性をGeminiとGPTモデルを備えたアリーナスタイルのトーナメントで実証する。
論文 参考訳(メタデータ) (2024-07-18T23:41:05Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf [28.57358844115881]
有名なコミュニケーションゲーム『Werewolf』の変種として、One Night Ultimate Werewolf (ONUW) はプレイヤーが戦略的な議論ポリシーを開発する必要がある。
本稿では、強化学習(RL)によって訓練された議論政策を用いて、適切な議論手法を採用するためのRL命令言語エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T11:07:06Z) - Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文 参考訳(メタデータ) (2024-03-06T02:23:32Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。