論文の概要: The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2602.02496v1
- Date: Wed, 14 Jan 2026 00:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.389698
- Title: The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders
- Title(参考訳): 偽善ギャップ:スパースオートエンコーダによる内部信念と結束説明の差異の定量化
- Authors: Shikhar Shiromani, Archie Chaudhury, Sri Pranav Kunda,
- Abstract要約: モデルの内部推論と最終生成との相違を定量化するために、偽犯罪ギャップを導入する。
数学的に、スパース線形プローブによって導出された内的真理信念を、潜在空間における最終的な生成軌跡と比較することにより、モデルが不誠実な振る舞いをする傾向を定量化し、検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) frequently exhibit unfaithful behavior, producing a final answer that differs significantly from their internal chain of thought (CoT) reasoning in order to appease the user they are conversing with. In order to better detect this behavior, we introduce the Hypocrisy Gap, a mechanistic metric utilizing Sparse Autoencoders (SAEs) to quantify the divergence between a model's internal reasoning and its final generation. By mathematically comparing an internal truth belief, derived via sparse linear probes, to the final generated trajectory in latent space, we quantify and detect a model's tendency to engage in unfaithful behavior. Experiments on Gemma, Llama, and Qwen models using Anthropic's Sycophancy benchmark show that our method achieves an AUROC of 0.55-0.73 for detecting sycophantic runs and 0.55-0.74 for hypocritical cases where the model internally "knows" the user is wrong, consistently outperforming a decision-aligned log-probability baseline (0.41-0.50 AUROC).
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば不誠実な振る舞いを示し、会話しているユーザーを納得させるために、彼らの内部的な思考の連鎖(CoT)推論と大きく異なる最終的な答えを生み出します。
この振舞いをよりよく検出するために,スパースオートエンコーダ(SAE)を用いて,モデルの内部推論と最終生成とのばらつきを定量化するメカニカルメトリックであるHypocrisy Gapを導入する。
数学的に、スパース線形プローブによって導出された内的真理信念を、潜在空間における最終的な生成軌跡と比較することにより、モデルが不誠実な振る舞いをする傾向を定量化し、検出する。
AnthropicのSycophancyベンチマークを用いて,Gemma,Llama,Qwenモデルを用いた実験により,本手法はサイコファンティックランを検出するAUROCが0.55-0.73であり,内部の「知識」が誤っている仮説的ケースでは0.55-0.74であり,決定整合対数確率ベースライン(0.41-0.50 AUROC)を一貫して上回っていることがわかった。
関連論文リスト
- Which Sparse Autoencoder Features Are Real? Model-X Knockoffs for False Discovery Rate Control [0.0]
我々は, 偽発見率(FDR)を制御するために, knock-off+ を用いて, SAE特徴選択に Model-X ノックオフを導入する。
提案手法は,SAEと多重テスト認識推論を組み合わせることで,信頼性の高い特徴発見を実現するための,再現可能で原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-12T17:12:45Z) - User-Based Sequential Modeling with Transformer Encoders for Insider Threat Detection [0.005755004576310333]
インサイダー脅威検出は、悪意のあるアクターの認定状態のために、ユニークな課題を提示する。
既存の機械学習メソッドは、ユーザアクティビティを独立したイベントとして扱うため、ユーザの振る舞いにおけるシーケンシャルな依存関係を活用できない。
本稿では,ユーザベースシーケンス法(UBS)手法を提案し,CERTインサイダー脅威データセットを深い逐次モデリングに適した構造化時間列に変換する。
論文 参考訳(メタデータ) (2025-06-30T00:47:31Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection [25.176984317213858]
大型言語モデル(LLM)は幻覚に悩まされ、センシティブなアプリケーションにおける信頼性を損なう。
本稿では,検証モデルを一部のケースに対してのみ呼び出す,予算に優しい2段階検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-20T21:06:08Z) - Disentangled Latent Spaces for Reduced Order Models using Deterministic Autoencoders [0.0]
潜伏変数をアンタングル化し、結果のモードを分析することで、より解釈可能性を得ることができる。
確率的オートエンコーダ (beta$-VAEs) は計算流体力学においてよく用いられる。
本研究では,非確率的オートエンコーダ手法を用いて,競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2025-02-20T16:09:57Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。