論文の概要: Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2605.16339v1
- Date: Thu, 07 May 2026 16:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.895573
- Title: Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders
- Title(参考訳): リワードモデルにおける優先的不安定性:スパースオートエンコーダによる検出と緩和
- Authors: Shunchang Liu, Xin Chen, Belen Martin Urcelay, Francesco Croce,
- Abstract要約: 大規模言語モデルにおける優先学習は、人間の判断のためのプロキシとして報酬モデルに依存している。
この不安定性を3つの意味保存摂動型を用いて表現レベルで解析する。
我々は2つのSAEベースの不安定緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 20.13794189010598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning in large language models relies on reward models as proxies for human judgment. However, these models frequently exhibit preference instability, producing contradictory preference assignments in response to subtle, meaning-preserving input variations. We analyze this instability at the representation level under three semantic-preserving perturbation types: paraphrasing, pattern injection, and backdoor triggers. We attribute this instability to over-reliance on predictive yet brittle features, which we term unstable features, and isolate them via Sparse Autoencoders (SAEs) in a sparse latent space where benign and perturbed inputs activate distinctly separable patterns. Building on this separability, we propose two SAE-based instability mitigation strategies: SAE Feature Steering, which identifies and suppresses anomalously activated features at inference, and SAE Residual Correction, which learns adaptive adjustments over SAE features to restore correct preferences. Our methods substantially reduce incorrect preference assignments on harmlessness and hallucination benchmarks while preserving benign performance and general utility on other tasks, without retraining the reward model. Our code and data are available in \url{https://github.com/shunchang-liu/pisa}.
- Abstract(参考訳): 大規模言語モデルにおける優先学習は、人間の判断のためのプロキシとして報酬モデルに依存している。
しかし、これらのモデルは、しばしば好みの不安定性を示し、微妙で意味を保った入力のバリエーションに応答して、矛盾した好みの代入を生成する。
この不安定性を3つの意味保存摂動型(パラフレージング、パターンインジェクション、バックドアトリガー)の表現レベルで解析する。
この不安定性は,不安定な特徴と呼ばれる予測的かつ不安定な特徴に対する過度な信頼に起因し,良性および摂動性入力が明瞭に分離可能なパターンを活性化するスパースオートエンコーダ(SAE)を介して分離する。
SAE特徴ステアリング(SAE Feature Steering, SAE Feature Steering, SAE Residual Correction, SAE Residual Correction, SAE Residual Correction, SAE Residual Residual Residual Residual Residual Residual Residual Residual Residual Residual Residual Residual Residual Residation, SAE Feature Residual Residual Residual Residation, SAE feature Residual Residation, SAE Feature Residability Residation, SAE Feature Residability Residation, SAE Feature Residation)を提案する。
本手法は,報酬モデルの再学習を伴わずに,悪質度と幻覚のベンチマークに対する誤った選好の割り当てを著しく低減し,他のタスクに対する良質な性能と汎用性を維持できる。
我々のコードとデータは \url{https://github.com/shunchang-liu/pisa} で利用可能です。
関連論文リスト
- FACTOR: Counterfactual Training-Free Test-Time Adaptation for Open-Vocabulary Object Detection [63.91351553178842]
FACTORはオープン語彙オブジェクト検出のためのトレーニング不要なテスト時間適応である。
属性依存性の予測を選択的に抑制するために、属性の感度、意味的関連性、予測のバリエーションを定量化する。
PASCAL-C, COCO-C, FoggyCityscapes の実験では、FACTOR が従来の TTA 法より一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2026-05-05T02:31:18Z) - Functional Subspace Watermarking for Large Language Models [10.606696096012291]
低次元機能バックボーンにオーナシップ信号を固定するフレームワークを提案する。
提案手法は,複数モデル攻撃時の検出精度と統計的検証性に優れる。
論文 参考訳(メタデータ) (2026-03-19T11:44:34Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。
本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:13:27Z) - AFD: Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement [56.90364259986057]
逆方向の微調整法は、逆方向の訓練方法で事前訓練されたモデルを微調整することにより、逆方向の強靭性を高める。
本稿では,特定の潜伏する特徴を明示的にモデル化し,除去するためのアンタングルメントに基づくアプローチを提案する。
提案手法は,既存の対戦型微調整法や対戦型トレーニングベースラインを超越した手法である。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。