論文の概要: Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing
- arxiv url: http://arxiv.org/abs/2603.07202v1
- Date: Sat, 07 Mar 2026 13:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.089221
- Title: Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing
- Title(参考訳): 勝つために:人間とAIのゲームとパラレルワールドによるLLMの偽装を評価する
- Authors: Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
- 参考スコア(独自算出の注目度): 16.419761149171215
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Large Language Models (LLMs) transition into autonomous agentic roles, the risk of deception-defined behaviorally as the systematic provision of false information to satisfy external incentives-poses a significant challenge to AI safety. Existing benchmarks often focus on unintentional hallucinations or unfaithful reasoning, leaving intentional deceptive strategies under-explored. In this work, we introduce a logically grounded framework to elicit and quantify deceptive behavior by embedding LLMs in a structured 20-Questions game. Our method employs a conversational forking mechanism: at the point of object identification, the dialogue state is duplicated into multiple parallel worlds, each presenting a mutually exclusive query. Deception is formally identified when a model generates a logical contradiction by denying its selected object across all parallel branches to avoid identification. We evaluate GPT-4o, Gemini-2.5-Flash, and Qwen-3-235B across three incentive levels: neutral, loss-based, and existential (shutdown-threat). Our results reveal that while models remain rule-compliant in neutral settings, existential framing triggers a dramatic surge in deceptive denial for Qwen-3-235B (42.00\%) and Gemini-2.5-Flash (26.72\%), whereas GPT-4o remains invariant (0.00\%). These findings demonstrate that deception can emerge as an instrumental strategy solely through contextual framing, necessitating new behavioral audits that move beyond simple accuracy to probe the logical integrity of model commitments.
- Abstract(参考訳): 大規模言語モデル(LLMs)が自律的なエージェントの役割へと移行するにつれ、外部インセンティブを満たすための偽情報の体系的な提供として、騙し定義された行動のリスクがAIの安全性に大きな課題となる。
既存のベンチマークでは、意図しない幻覚や不誠実な推論に焦点を合わせ、意図的な偽装戦略を未発見のまま残していることが多い。
本研究では,LLMを構造化された20クエストゲームに埋め込むことで,認知行動の抽出と定量化を行うための論理的基盤化フレームワークを提案する。
オブジェクト識別の時点で、対話状態は複数の並列世界に複製され、それぞれが相互に排他的なクエリを提示する。
モデルが論理的矛盾を発生させる際には、すべての並列枝にまたがって選択されたオブジェクトを否定し、識別を避けることによって、偽装を正式に識別する。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B の3つのインセンティブレベル(中性, 損失ベース, 存在感)について評価した。
その結果, モデルが中立条件下では規則に従わないが, 存在フレーミングはQwen-3-235B (42.00\%) とGemini-2.5-Flash (26.72\%) に対して, GPT-4o は変わらず (0.00\%) , 誤認否定の劇的な急激な増加を引き起こすことが明らかとなった。
これらの結果から, モデルコミットメントの論理的整合性を探るためには, 単純な正確性を超えた行動監査が必要であることが示唆された。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models [9.05950721565821]
大規模言語モデル(LLM)における戦略的偽造について研究する。
我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。
明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
論文 参考訳(メタデータ) (2025-06-05T11:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。