論文の概要: WOLF: Werewolf-based Observations for LLM Deception and Falsehoods
- arxiv url: http://arxiv.org/abs/2512.09187v1
- Date: Tue, 09 Dec 2025 23:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.342555
- Title: WOLF: Werewolf-based Observations for LLM Deception and Falsehoods
- Title(参考訳): WOLF: LLMの誤認と偽装に対するWerewolf-based Observations
- Authors: Mrinal Agarwal, Saad Rana, Theo Sundoro, Hermela Berhe, Spencer Kim, Vasu Sharma, Sean O'Brien, Kevin Zhu,
- Abstract要約: WerewolfをベースとしたマルチエージェントソーシャルベンチマークであるWOLFを提案する。
WOLFはプログラム可能なLangGraphステートマシンにロールグラウンドエージェントを埋め込む。
すべての言明は別個の分析単位であり、話者から自己評価された正直さと他者からのピアレーティングな騙しである。
- 参考スコア(独自算出の注目度): 7.434408249978527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deception is a fundamental challenge for multi-agent reasoning: effective systems must strategically conceal information while detecting misleading behavior in others. Yet most evaluations reduce deception to static classification, ignoring the interactive, adversarial, and longitudinal nature of real deceptive dynamics. Large language models (LLMs) can deceive convincingly but remain weak at detecting deception in peers. We present WOLF, a multi-agent social deduction benchmark based on Werewolf that enables separable measurement of deception production and detection. WOLF embeds role-grounded agents (Villager, Werewolf, Seer, Doctor) in a programmable LangGraph state machine with strict night-day cycles, debate turns, and majority voting. Every statement is a distinct analysis unit, with self-assessed honesty from speakers and peer-rated deceptiveness from others. Deception is categorized via a standardized taxonomy (omission, distortion, fabrication, misdirection), while suspicion scores are longitudinally smoothed to capture both immediate judgments and evolving trust dynamics. Structured logs preserve prompts, outputs, and state transitions for full reproducibility. Across 7,320 statements and 100 runs, Werewolves produce deceptive statements in 31% of turns, while peer detection achieves 71-73% precision with ~52% overall accuracy. Precision is higher for identifying Werewolves, though false positives occur against Villagers. Suspicion toward Werewolves rises from ~52% to over 60% across rounds, while suspicion toward Villagers and the Doctor stabilizes near 44-46%. This divergence shows that extended interaction improves recall against liars without compounding errors against truthful roles. WOLF moves deception evaluation beyond static datasets, offering a dynamic, controlled testbed for measuring deceptive and detective capacity in adversarial multi-agent interaction.
- Abstract(参考訳): 効果的なシステムは、他人の誤解を招く行動を検出しながら、戦略的に情報を隠蔽しなければならない。
しかし、ほとんどの評価は静的な分類への騙しを減らし、実際の認知力学の対話的、敵対的、縦断的な性質を無視している。
大規模言語モデル (LLM) は、説得力を持って騙すことができるが、ピアの騙しを検出するには弱いままである。
Werewolfをベースとしたマルチエージェントソーシャル推論ベンチマークであるWOLFを提案する。
WOLFはロールグラウンドされたエージェント(Villager、Werewolf、Seer、Doctor)をプログラム可能なLangGraphステートマシンに埋め込む。
すべての言明は別個の分析単位であり、話者から自己評価された正直さと他者からのピアレーティングな騙しである。
偽証は、標準化された分類(省略、歪み、製造、方向誤認)によって分類され、疑わしいスコアは、直近の判断と進化する信頼のダイナミクスの両方を捉えるために縦に平滑化される。
構造化ログは、完全な再現性のためにプロンプト、出力、状態遷移を保存する。
7,320のステートメントと100回のランで、Werewolvesは31%のターンで偽のステートメントを生成し、ピア検出は71-73%の精度で全体の精度を約52%で達成している。
ウオオカミを識別する精度は高いが、村人に対して偽陽性が生じる。
ワイアウルフに対する疑念は、ラウンド全体で約52%から60%以上まで上昇し、村民や医師に対する疑念は44-46%近く安定している。
この分岐は、拡張された相互作用が嘘つきに対するリコールを改善することを示し、真理な役割に対する誤りを複雑にしない。
WOLFは、静的データセットを超えて偽装評価を移動し、動的に制御されたテストベッドを提供し、対向的マルチエージェントインタラクションにおける偽装と刑事の能力を測定する。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Can LLMs Lie? Investigation beyond Hallucination [36.16054472249757]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる印象的な機能を示しているが、現実のアプリケーションにおける自律性の向上は、その信頼性に対する懸念を提起している。
本研究では,LLMの嘘行動を調査し,幻覚と区別し,実践的なシナリオでテストする。
我々の発見は、AI倫理に関する幅広い議論に寄与し、LLMを高い環境に展開する際のリスクと潜在的な安全を隠蔽する。
論文 参考訳(メタデータ) (2025-09-03T17:59:45Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Language Models can Subtly Deceive Without Lying: A Case Study on Strategic Phrasing in Legislation [23.309640920644565]
大規模言語モデル(LLM)は、戦略的に表現し、意図的に情報を操作することで微妙な偽装を行う。
本研究は,中性言語が自己維持目標を達成するために,LSMの戦略的表現能力のリスクを強調した。
論文 参考訳(メタデータ) (2024-05-07T13:55:11Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - How human judgment impairs automated deception detection performance [0.5660207256468972]
教師付き機械学習と人間の判断を組み合わせることで、偽造検出精度が向上するかどうかを検証した。
ハイブリッドオーバールール決定による人間の関与は、精度をチャンスレベルに戻した。
人間の意思決定戦略は、真実の偏見(相手が真実を語る傾向)が有害な影響を説明できることを示唆している。
論文 参考訳(メタデータ) (2020-03-30T10:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。