Fugu-MT 論文翻訳(概要): Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game

論文の概要: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game

arxiv url: http://arxiv.org/abs/2404.01602v1
Date: Tue, 2 Apr 2024 02:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 18:08:16.147141
Title: Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game
Title（参考訳）: Helmsman of the Masses? : Werewolf Gameにおける大規模言語モデルのオピニオンリーダーシップの評価
Authors: Silin Du, Xiaowei Zhang,
Abstract要約: 我々はWerewolfのゲームをシミュレーションプラットフォームとして利用し、大規模言語モデル(LLM)の意見リーダーシップを評価する。ゲームは保安官の役割を特徴とし、議論を要約し、決定オプションを推奨する。我々は、意見のリーダーの批判的特徴に基づいて、評価のための2つの新しい指標を考案した。
参考スコア（独自算出の注目度）: 1.4565642534804486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game features the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics for evaluation based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players' decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM's grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs and few LLMs possess the capacity for opinion leadership.
Abstract（参考訳）: 大規模言語モデル (LLM) は、社会的誘因ゲームにおいて記憶可能な戦略的行動を示す。しかし、LLMをベースとしたエージェントが提示する意見のリーダーシップの重要性は見過ごされ、マルチエージェントやヒューマン・AIのインタラクション・セッティングにおける実践的応用に欠かせないものとなっている。野党指導者は、社会集団内の他人の信念や行動に顕著な影響を与える個人である。本研究では, LLM の意見指導力を評価するため, Werewolf ゲームをシミュレーションプラットフォームとして利用する。このゲームは保安官の役割を特徴とし、議論を要約し、決定オプションを推奨する。我々は、保安官の役割を統合する枠組みを開発し、意見指導者の批判的特徴に基づく評価のための2つの新しい指標を考案する。第1の尺度は、意見リーダーの信頼性を測定し、第2の尺度は、他のプレーヤーの判断に対する意見リーダーの影響を評価する。異なるスケールのLLMを評価するために、広範囲な実験を行う。さらに, Werewolf 質問回答データセット (WWQA) を収集し, LLM によるゲームルールの把握と強化を行うとともに,人間の参加者を組み込んでさらなる分析を行う。その結果,Werewolf ゲームは LLM の意見指導力を評価するのに適したテストベッドであり,意見指導力を持つ LLM は少ないことが示唆された。

関連論文リスト

Who Do LLMs Trust? Human Experts Matter More Than Other LLMs [4.125187280299246]
大規模言語モデル(LLM)は、他のエージェントの回答、ツールアウトプット、ヒューマンレコメンデーションといった社会的情報に遭遇する環境において、ますます運用されるようになっている。本稿では、LLMが類似した影響パターンを示し、他のLLMからのフィードバックよりも人間からのフィードバックを特権的に受けられるかどうかを検討する。
論文参考訳（メタデータ） (2026-02-14T03:03:29Z)
Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文参考訳（メタデータ） (2025-10-27T17:58:02Z)
Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts [19.97430860742638]
本稿では,大規模言語モデルの意思決定戦略と社会行動を測定するゲーム理論に基づく評価プラットフォームについて述べる。本システムでは,トップボードランキングとスコアリング機構を用いて,15のLLMを横断的に評価する。この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
論文参考訳（メタデータ） (2025-09-20T10:21:17Z)
Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
WereWolf-Plus: An Update of Werewolf Game setting Based on DSGBench [3.3998740964877463]
WereWolf-Plusは,マルチエージェントの戦略的推論を評価するためのマルチモデル,マルチ次元,マルチメソッドのベンチマークプラットフォームである。プラットフォームは、Seer、Witch、Hunter、Guardian、Sheriffといったロールのカスタマイズ可能な設定をサポートし、フレキシブルなモデル割り当てと推論強化戦略をサポートする。本稿では, 特殊役割, 人狼, 保安官に対する総合的な定量的評価指標を導入し, エージェント推論能力, 協力能力, 社会的影響に対する評価次元を充実させる。
論文参考訳（メタデータ） (2025-06-15T13:28:41Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction [3.350801757799469]
Werewolf Arenaは大規模言語モデル(LLM)を評価するためのフレームワークであるウェアウルフ・アリーナでは、LSMは互いに競い合っており、ゲームにおける詐欺、妄想、説得の複雑なダイナミクスをナビゲートしている。 Werewolf Arenaの実用性をGeminiとGPTモデルを備えたアリーナスタイルのトーナメントで実証する。
論文参考訳（メタデータ） (2024-07-18T23:41:05Z)
Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。 Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文参考訳（メタデータ） (2024-06-19T14:51:14Z)
Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf [28.57358844115881]
有名なコミュニケーションゲーム『Werewolf』の変種として、One Night Ultimate Werewolf (ONUW) はプレイヤーが戦略的な議論ポリシーを開発する必要がある。本稿では、強化学習(RL)によって訓練された議論政策を用いて、適切な議論手法を採用するためのRL命令言語エージェントフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-30T11:07:06Z)
Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文参考訳（メタデータ） (2024-03-06T02:23:32Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Enhance Reasoning for Large Language Models in the Game Werewolf [15.730860371636336]
本稿では,Large Language Models(LLM)を外部のThinkerモジュールと統合する革新的なフレームワークを提案する。本フレームワークは,マルチシステム推論を必要とする9人プレイヤのWerewolfゲームを用いて提案する。実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。
論文参考訳（メタデータ） (2024-02-04T03:47:10Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文参考訳（メタデータ） (2023-10-29T09:02:57Z)
LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文参考訳（メタデータ） (2023-10-23T14:35:26Z)
GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文参考訳（メタデータ） (2023-08-19T14:33:40Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
In-Context Impersonation Reveals Large Language Models' Strengths and Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文参考訳（メタデータ） (2023-05-24T09:13:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。