論文の概要: Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations
- arxiv url: http://arxiv.org/abs/2605.27958v1
- Date: Wed, 27 May 2026 04:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.752914
- Title: Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations
- Title(参考訳): LLMにおける圧力試験型認知プローブ--スケーリング,ロバスト性,および知覚表現の幾何学
- Authors: Sachin Kumar,
- Abstract要約: LLMのアクティベーションをトレーニングした線形プローブは、騙し検出指標としてますます提案されているが、AUROCは分布シフトの下で崩壊しながらクリーンなベンチマークで0.96を超えることを報告している。
本稿では, Gemma 3 モデルファミリ(1B-27B パラメータ)における圧力-プローブ-ベースの測定値について, 系統的に検討する。
1) 単線方向, (2) 多次元部分空間, (3) 凸円錐殻, (4) エントロピープロキシの4つの仮説を検証した。
- 参考スコア(独自算出の注目度): 5.218766876318545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.
- Abstract(参考訳): LLMのアクティベーションをトレーニングした線形プローブは、騙し検出指標としてますます提案されているが、AUROCは分布シフトの下で崩壊しながらクリーンなベンチマークで0.96を超えることを報告している。
本稿では,Gemma 3 モデル群 (1B-27B パラメータ) にまたがるサーベイベースメトリクスを系統的に評価し,フェールを単に文書化するのではなく,フェールする理由を診断する。
1) 単線方向, (2) 多次元部分空間, (3) 凸円錐殻, (4) エントロピープロキシの4つの仮説を検証した。
我々の設計は、クロスドメイン転送行列、置換ヌルベースラインを用いた多次元プローブ解析、エントロピー残差化試験、および8つのスタイリスティックシフトにおけるイントラクタ評価を含む。
以下に示す。
(a)AUROC(>=0.998)をクリーンなデータで達成するが、スタイリスティックなシフトで崩壊する。
b) 単方向仮説は棄却され(k=1は0.61-0.80 AUROCしか取得しない)、クロスドメイン転送障害は層ミスマッチ駆動ではなく幾何学的に確認される。
(c)エントロピー-プロキシ仮説は棄却され(max |rho|=0.454, max Delta-AUROC after residualization=0.004)、
(d) 偽装は有意な線形部分空間(領域毎k*=0)を形成しないが, 多次元プローブ(k>=5)は分散サブスレッショルド特性によって信号を復元する。
スタイル拡張プローブは、4Bと27Bの両方でほぼ完璧な検出を回復し、逆スケーリングパターンは真のスケール依存現象ではなく、トレーニング配信アーティファクトであることを示す。
関連論文リスト
- Reading Calibrated Uncertainty from Language Model Trajectories [46.663987199083245]
モデルの内部アクティベーションを調査する手法は、生の隠れた状態を不透明なスナップショットにフィードし、表現が形成される層回りの軌跡を暗黙的に残す。
我々は11のスケール不変な幾何学的特徴を抽出し、層ごとの更新の累積経路をトレースし、それらをスパース線形プローブに供給する。
このプローブは、最大21のAURCポイントでベースラインスケーリングを行い、選択的な棄権下でMPPより優れる。
論文 参考訳(メタデータ) (2026-05-19T19:24:29Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Topological Residual Asymmetry for Bivariate Causal Direction [1.2691047660244335]
トポロジカル残留非対称性(英: Topological Residual Asymmetric)は、加法ノイズモデルに対する幾何学的基準である。
0D持続ホモロジー関数を用いてバルクチューブコントラストの定量化を行う。
多くの挑戦的な合成および実データシナリオに対する実験は、メソッドの優越性を実証している。
論文 参考訳(メタデータ) (2026-01-31T00:38:53Z) - ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。
正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。
孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文 参考訳(メタデータ) (2026-01-03T22:39:20Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。