Fugu-MT 論文翻訳(概要): Why Is RLHF Alignment Shallow? A Gradient Analysis

論文の概要: Why Is RLHF Alignment Shallow? A Gradient Analysis

arxiv url: http://arxiv.org/abs/2603.04851v1
Date: Thu, 05 Mar 2026 06:07:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.096105
Title: Why Is RLHF Alignment Shallow? A Gradient Analysis
Title（参考訳）: RLHFアライメントが浅すぎる理由 : グラディエント分析
Authors: Robin Young,
Abstract要約: 勾配に基づくアライメントは本質的に害が決定され、それ以上に消える位置に集中する。我々は、各位置が害に与える影響を定量化する「害情報$I_t$」の概念を導入する。我々は、すべての位置で勾配信号を生成するリカバリペナルティに基づいて目的を導出する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Why is safety alignment in LLMs shallow? We prove that gradient-based alignment inherently concentrates on positions where harm is decided and vanishes beyond. Using a martingale decomposition of sequence-level harm, we derive an exact characterization of alignment gradients. The gradient at position $t$ equals the covariance between the conditional expected harm and the score function. This implies that positions beyond the harm horizon where the output's harmfulness is already determined receive zero gradient signal during training. This explains empirical observations that KL divergence between aligned and base models concentrates on early tokens. Consequently, standard alignment objectives cannot produce deep alignment, regardless of optimization quality. We introduce the concept of harm information $I_t$, which quantifies each position's influence on harm, and prove that equilibrium KL divergence tracks this quantity. Finally, we derive an objective based on recovery penalties that creates gradient signal at all positions, providing theoretical grounding for empirically successful data augmentation techniques.
Abstract（参考訳）: LLMの安全アライメントはなぜ浅いのか? 我々は、勾配に基づくアライメントが本質的に害が決定され、それ以上に消える位置に集中していることを証明する。配列レベルの調和のマーチンゲール分解を用いて、アライメント勾配の正確な特徴を導出する。位置$t$の勾配は、条件付き期待調和とスコア関数の共分散と等しい。これは、出力の有害度が既に決定されているハーネス水平線を超える位置が、トレーニング中にゼロ勾配信号を受け取ることを意味する。これは、KLのアライメントとベースモデルの分岐が初期のトークンに集中しているという経験的観察を説明する。したがって、最適化の品質に関わらず、標準アライメントの目的は深いアライメントを生み出すことはできない。我々は、各位置が害に与える影響を定量化する「調和情報$I_t$」の概念を導入し、平衡KL分散がこの量を追跡することを証明した。最後に、任意の位置で勾配信号を生成するリカバリペナルティに基づいて目的を導出し、実験的に成功したデータ拡張技術の理論的基盤を提供する。

関連論文リスト

Suspicious Alignment of SGD: A Fine-Grained Step Size Condition Analysis [30.6120085647449]
本稿では,不調な最適化条件下での勾配降下(SGD)における不審なアライメント現象について検討する。具体的には、SGD更新の初期段階では、勾配と支配部分空間のアライメントが減少する傾向にある。十分な条件下では、SGD更新をバルク空間に投影すると損失が減少し、支配空間に投影すると損失が増大するステップサイズ間隔が存在することを示す。
論文参考訳（メタデータ） (2026-01-16T21:32:48Z)
Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配はしばしば保持された知識を傷つける本稿では,GU(Geometric-disment Unlearning)を提案する。本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文参考訳（メタデータ） (2025-11-21T09:58:25Z)
Risk Phase Transitions in Spiked Regression: Alignment Driven Benign and Catastrophic Overfitting [4.340040784481499]
この論文は、スパイク強度の変化とターゲットスパイクアライメントがリスクにどのように影響するかを特徴付ける。この研究は、一般化誤差の正確な表現を示し、良性、誘惑性、破滅的な過剰適合状態の包括的分類に繋がる。
論文参考訳（メタデータ） (2025-10-01T19:51:47Z)
Gradient Equilibrium in Online Learning: Theory and Applications [56.02856551198923]
勾配平衡は標準オンライン学習法によって達成される。勾配平衡は、オンライン予測問題において解釈可能かつ有意義な性質に変換される。勾配平衡フレームワークは,ブラックボックス予測の偏りを緩和する手法の開発に利用できることを示す。
論文参考訳（メタデータ） (2025-01-14T18:59:09Z)
Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning [1.4050802766699084]
本稿では,ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオについて考察する。 DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。
論文参考訳（メタデータ） (2023-11-27T02:12:02Z)
Random Feedback Alignment Algorithms to train Neural Networks: Why do they Align? [0.0]
ランダムウォーカーの更新と真の勾配とのアライメントは、近似勾配降下を駆動する。勾配アライメントはそれらの固定点に対する安定性の基準であることを示す。高レベルの勾配アライメントがアルゴリズム性能の低下につながることを実証する。
論文参考訳（メタデータ） (2023-06-04T10:50:13Z)
The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。我々の手法は一貫してベースラインモデルより優れています。
論文参考訳（メタデータ） (2022-10-11T16:00:36Z)
Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文参考訳（メタデータ） (2022-04-19T08:23:23Z)
Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文参考訳（メタデータ） (2021-07-21T16:41:57Z)
Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。勾配推定の品質はリスク最小化においてより重要であることを示す。本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-05T04:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。