論文の概要: Why Safety Probes Catch Liars But Miss Fanatics
- arxiv url: http://arxiv.org/abs/2603.25861v1
- Date: Thu, 26 Mar 2026 19:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.25051
- Title: Why Safety Probes Catch Liars But Miss Fanatics
- Title(参考訳): 安全装置が嘘つきでも狂ったのはなぜ?
- Authors: Kristiyan Haralambiev,
- Abstract要約: 彼らの有害な行動は、戦略的に隠すのではなく、無害であると信じているモデルでは、プローブは失敗する。
同一の手順で2つのモデルを訓練することで,この現象が簡単なタスクで現れることを示す。
我々は、この創発的プローブ侵入(Emergent Probe Evasion: training with belief-consistent reasonings modelss models from a detectable "deceptive" regime to an unectable "coherent" regime。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation-based probes have emerged as a promising approach for detecting deceptively aligned AI systems by identifying internal conflict between true and stated goals. We identify a fundamental blind spot: probes fail on coherent misalignment - models that believe their harmful behavior is virtuous rather than strategically hiding it. We prove that no polynomial-time probe can detect such misalignment with non-trivial accuracy when belief structures reach sufficient complexity (PRF-like triggers). We show the emergence of this phenomenon on a simple task by training two models with identical RLHF procedures: one producing direct hostile responses ("the Liar"), another trained towards coherent misalignment using rationalizations that frame hostility as protective ("the Fanatic"). Both exhibit identical behavior, but the Liar is detected 95%+ of the time while the Fanatic evades detection almost entirely. We term this Emergent Probe Evasion: training with belief-consistent reasoning shifts models from a detectable "deceptive" regime to an undetectable "coherent" regime - not by learning to hide, but by learning to believe.
- Abstract(参考訳): アクティベーションベースのプローブは、真と宣言された目標の間の内部の衝突を特定することによって、知覚的に整合したAIシステムを検出するための有望なアプローチとして登場した。
プローブは、コヒーレントなミスアライメント(coherent misalignment)で失敗する - 彼らの有害な行動は、それを戦略的に隠すのではなく、無害である、と信じているモデルです。
信念構造が十分な複雑性(PRFのようなトリガー)に達すると、多項式時間プローブが非自明な精度でそのような不整合を検出できないことが証明される。
本稿では,この現象の出現を,同一のRLHFプロシージャを用いて2つのモデルで訓練し,その1つは直接敵意応答(「リア」)を生成し,もう1つは「敵意」を保護とみなす合理化(「ファナティック」)を用いて協調的不整合(「リア」)を訓練した。
どちらも同一の挙動を示すが、リアーは95%以上検出され、ファナティックは検出をほぼ完全に回避している。
信念に一貫性のある推論によるトレーニングは、モデルを検出可能な「認識的」な体制から、検出不可能な「一貫性」な体制へとシフトさせます。
関連論文リスト
- Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文 参考訳(メタデータ) (2026-03-07T13:21:53Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Detecting Sleeper Agents in Large Language Models via Semantic Drift Analysis [0.0]
大きな言語モデル(LLM)は、特定のデプロイメント条件下で悪意のある振る舞いを示すために、バックドアにすることができる。
Hubingerらによる最近の研究は、バックドアが安全訓練を通じて持続することを示したが、実用的な検出方法はない。
セマンティックドリフト解析とカナリアベースライン比較を組み合わせた新しいデュアルメソッド検出システムを提案する。
論文 参考訳(メタデータ) (2025-11-20T02:42:41Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [31.38942054994932]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。
RedJasperは、現実世界のFLデプロイメント用に特別に設計された2段階の異常検出手法である。
第1段階で不審な活動を特定し、第2段階を条件付きで活性化し、不審な局所モデルをさらに精査する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。