論文の概要: Evaluating Large Language Models in a Complex Hidden Role Game
- arxiv url: http://arxiv.org/abs/2605.22826v1
- Date: Thu, 09 Apr 2026 14:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.439101
- Title: Evaluating Large Language Models in a Complex Hidden Role Game
- Title(参考訳): 複合隠れロールゲームにおける大規模言語モデルの評価
- Authors: Niklas Bauer,
- Abstract要約: 大規模言語モデル(LLM)の誤認の可能性の定量化はAIの安全性にとって重要であるが、制御されていない環境では達成が難しい。
本研究は,社会推論ゲーム「シークレット・ヒトラー」におけるLLMの推論,説得,および誤認能力について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quantifying the deceptive potential of Large Language Models (LLMs) is critical for AI safety, yet difficult to achieve in uncontrolled environments. This work investigates the reasoning, persuasion, and deceptive capabilities of LLMs within the social deduction game Secret Hitler. I introduce an open-source framework and novel metrics to measure performance: Role Identification Accuracy, Deception Retention Rate, and Game State Impact Rate. By benchmarking models against rule-based algorithms and human games, I identify a gap between conversational ability and strategic depth. The study also analyzes the impact of reasoning-enhancement techniques on win rates and strategic reasoning. Neither Chain-of-Thought prompting nor internal memory bring improvements in performance, with up to 23.2% worse win rates for fascist roles. While rule-based agents align with expert human voting decisions 86.7% of the time, models like Llama 3.1 70B achieve only a 59.7% accuracy. Models playing as Fascists consistently yield negative impact scores and fail to sustain deception, resulting in roughly 40% shorter games compared to humans. These findings suggest that current architectures remain ineffective at complex, multi-turn manipulation. As capabilities advance, detecting when models begin to master these deceptive behaviors is crucial. The developed framework serves as a reproducible testbed for future alignment research.
- Abstract(参考訳): 大規模言語モデル(LLM)の誤認の可能性の定量化はAIの安全性にとって重要であるが、制御されていない環境では達成が難しい。
本研究は,社会推論ゲーム「シークレット・ヒトラー」におけるLLMの推論,説得,および誤認能力について考察する。
私は、役割識別精度、認識保持率、ゲーム状態への影響率といった、パフォーマンスを測定するためのオープンソースのフレームワークと新しいメトリクスを紹介します。
ルールベースのアルゴリズムと人間のゲームに対してモデルをベンチマークすることで、会話能力と戦略的な深さのギャップを識別する。
この研究は、推論・エンハンスメント技術が勝利率と戦略的推論に与える影響も分析した。
チェーン・オブ・ソートも内部記憶も改善せず、ファシスト役では最大で23.2%の勝利率となる。
ルールベースのエージェントは、専門家による投票の86.7%と一致しているが、Llama 3.1 70Bのようなモデルは59.7%の精度しか達成していない。
ファシストとしてプレーするモデルは、常に負のインパクトスコアを出し、騙しを抑えることができず、その結果、人間に比べて約40%短いゲームになる。
これらの結果は、現在のアーキテクチャは複雑なマルチターン操作では効果がないことを示唆している。
能力が向上するにつれて、モデルがこれらの偽りの振る舞いをマスターし始めることを検出することが不可欠である。
開発フレームワークは、将来のアライメント研究のための再現可能なテストベッドとして機能する。
関連論文リスト
- Intentional Deception as Controllable Capability in LLM Agents [0.0]
本稿では,マルチエージェントシステムにおいて,意図的騙しを工学的能力として体系的に研究する。
本研究では,ターゲットエージェントの特徴を推定し,その信念や動機に反する行動に対して,意図的反応を操る2段階のシステムについて検討する。
認知的介入は、一様分布ではなく、特定の行動プロファイルに集中する差分効果を生じさせる。
論文 参考訳(メタデータ) (2026-03-08T23:48:49Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。