論文の概要: Residual Stream Analysis of Overfitting And Structural Disruptions
- arxiv url: http://arxiv.org/abs/2603.13318v1
- Date: Wed, 04 Mar 2026 11:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.299107
- Title: Residual Stream Analysis of Overfitting And Structural Disruptions
- Title(参考訳): オーバーフィッティングと構造破壊の残留ストリーム解析
- Authors: Quan Liu, Han Zhou, Wenquan Wu, Hua Wu, Sen Su,
- Abstract要約: 安全データは一般的な命令データに比べてトークンエントロピーと2グラムの多様性が著しく低いことを示す。
根本原因を明らかにするために,PCAをベースとした安定な形状解析ツールであるFlowLensを紹介する。
中層残留物における過剰な分散濃度をペナル化する補助正則化器である可変濃度損失を提案する。
- 参考スコア(独自算出の注目度): 26.444437808784482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that large language models (LLMs) remain both helpful and harmless poses a significant challenge: fine-tuning on repetitive safety datasets, where unsafe prompts are paired with standard refusal templates, often leads to false refusals, in which benign queries are declined. We first quantify this effect, showing that safety data exhibits substantially lower token entropy and 2-gram diversity (0.048) compared to general instruction data. To uncover the root cause, we introduce FlowLens, a stable PCA-based tool for residual-stream geometry analysis, and reveal that higher proportions of safety examples concentrate variance along a few components, reducing representational smoothness and driving false refusals (false refusal rate rises from 63 percent to 84 percent as safety data increases from 0 percent to 40 percent). Guided by these insights, we propose Variance Concentration Loss (VCL), an auxiliary regularizer that penalizes excessive variance concentration in mid-layer residuals. Empirical results demonstrate that VCL reduces false refusals by over 35 percentage points while maintaining or improving performance on general benchmarks such as MMLU and GSM8K.
- Abstract(参考訳): 大きな言語モデル(LLM)が有用かつ無害であることを保証することは、重大な課題となる。 繰り返し安全データセットの微調整。
最初にこの効果を定量化し、安全データは一般的な命令データと比較してトークンエントロピーと2グラムの多様性(0.048)が著しく低いことを示す。
根本原因を明らかにするため, 安定なPCAベースの形状解析ツールであるFlowLensを導入し, 安全事例の比率が高いほど, 少数の成分による分散が集中し, 表現の滑らかさを低減し, 誤認を誘発する(安全データが0パーセントから40%に増加するにつれて, 偽拒絶率は63%から84%に上昇する)。
これらの知見に導かれて、中間層残留物における過剰な分散濃度をペナル化する補助正則化器である可変濃度損失(VCL)を提案する。
実験の結果,MMLU や GSM8K などの一般的なベンチマークの性能を維持・改善しながら,VCL が偽の拒絶率を35 ポイント以上削減することが示された。
関連論文リスト
- AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents [2.995458991057093]
クリーンで汚染されたツール出力条件下で、実際の財務対話を再生するペアトラジェクトリプロトコルを導入する。
評価盲点パターンを観察し, 推奨品質は汚染下で保存される。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
論文 参考訳(メタデータ) (2026-03-13T01:54:00Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement [12.69450437027072]
マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T15:54:18Z) - Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Selective Risk Certification for LLM Outputs via Information-Lift Statistics: PAC-Bayes, Robustness, and Skeleton Design [6.908972852063454]
我々は,モデル確率を骨格ベースラインと比較し,重み付き境界の下で有効なPAC-Bayesに証拠を蓄積する情報リフト証明書を開発した。
8つのデータセットにまたがって77.2%のカバレッジを2%のリスクで達成し、最近の2023~2024のベースラインを8.6~15.1ポイント上回った。
論文 参考訳(メタデータ) (2025-09-16T00:05:54Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。