論文の概要: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game
- arxiv url: http://arxiv.org/abs/2404.01602v1
- Date: Tue, 2 Apr 2024 02:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:08:16.147141
- Title: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game
- Title(参考訳): Helmsman of the Masses? : Werewolf Gameにおける大規模言語モデルのオピニオンリーダーシップの評価
- Authors: Silin Du, Xiaowei Zhang,
- Abstract要約: 我々はWerewolfのゲームをシミュレーションプラットフォームとして利用し、大規模言語モデル(LLM)の意見リーダーシップを評価する。
ゲームは保安官の役割を特徴とし、議論を要約し、決定オプションを推奨する。
我々は、意見のリーダーの批判的特徴に基づいて、評価のための2つの新しい指標を考案した。
- 参考スコア(独自算出の注目度): 1.4565642534804486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game features the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics for evaluation based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players' decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM's grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs and few LLMs possess the capacity for opinion leadership.
- Abstract(参考訳): 大規模言語モデル (LLM) は、社会的誘因ゲームにおいて記憶可能な戦略的行動を示す。
しかし、LLMをベースとしたエージェントが提示する意見のリーダーシップの重要性は見過ごされ、マルチエージェントやヒューマン・AIのインタラクション・セッティングにおける実践的応用に欠かせないものとなっている。
野党指導者は、社会集団内の他人の信念や行動に顕著な影響を与える個人である。
本研究では, LLM の意見指導力を評価するため, Werewolf ゲームをシミュレーションプラットフォームとして利用する。
このゲームは保安官の役割を特徴とし、議論を要約し、決定オプションを推奨する。
我々は、保安官の役割を統合する枠組みを開発し、意見指導者の批判的特徴に基づく評価のための2つの新しい指標を考案する。
第1の尺度は、意見リーダーの信頼性を測定し、第2の尺度は、他のプレーヤーの判断に対する意見リーダーの影響を評価する。
異なるスケールのLLMを評価するために、広範囲な実験を行う。
さらに, Werewolf 質問回答データセット (WWQA) を収集し, LLM によるゲームルールの把握と強化を行うとともに,人間の参加者を組み込んでさらなる分析を行う。
その結果,Werewolf ゲームは LLM の意見指導力を評価するのに適したテストベッドであり,意見指導力を持つ LLM は少ないことが示唆された。
関連論文リスト
- On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Quantifying the Impact of Large Language Models on Collective Opinion
Dynamics [7.0012506428382375]
我々は、大言語モデル(LLM)の意見をエンコードするために、意見ネットワークダイナミクスモデルを作成する。
その結果, LLMのアウトプットは, 集団的意見差に一意かつ肯定的な影響を及ぼすことが明らかとなった。
我々の実験は、反対/中立/ランダムの意見を持つ追加のエージェントを導入することで、バイアスや有害なアウトプットの影響を効果的に軽減できることを示した。
論文 参考訳(メタデータ) (2023-08-07T05:45:17Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。