論文の概要: Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2603.18258v1
- Date: Wed, 18 Mar 2026 20:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.839308
- Title: Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization
- Title(参考訳): 対数空間におけるシャープネスを考慮した最小化は直接参照最適化を効果的に促進する
- Authors: Haocheng Luo, Zehang Deng, Thanh-Toan Do, Mehrtash Harandi, Dinh Phung, Trung Le,
- Abstract要約: 直接選好最適化(DPO)は、事前訓練された大規模言語モデルと人間の選好を整合させる一般的なアルゴリズムとして登場した。
DPOは、最近特定されたスクイーズ効果に悩まされ、トレーニング中に好ましくない反応の確率が無意識に減少する。
我々はロジット空間における座標ワイドダイナミクスをモデル化する理論的枠組みを開発する。
Pythia-2.8B、Mistral-7B、Gemma-2B-ITの実験は、ロジットSAMが一貫してDPOの有効性を改善することを示した。
- 参考スコア(独自算出の注目度): 40.71030774410147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a popular algorithm for aligning pretrained large language models with human preferences, owing to its simplicity and training stability. However, DPO suffers from the recently identified squeezing effect (also known as likelihood displacement), where the probability of preferred responses decreases unintentionally during training. To understand and mitigate this phenomenon, we develop a theoretical framework that models the coordinate-wise dynamics in logit space. Our analysis reveals that negative-gradient updates cause residuals to expand rapidly along high-curvature directions, which underlies the squeezing effect, whereas Sharpness-Aware Minimization (SAM) can suppress this behavior through its curvature-regularization effect. Building on this insight, we investigate logits-SAM, a computationally efficient variant that perturbs only the output layer with negligible overhead. Extensive experiments on Pythia-2.8B, Mistral-7B, and Gemma-2B-IT across multiple datasets and benchmarks demonstrate that logits-SAM consistently improves the effectiveness of DPO and integrates seamlessly with other DPO variants. Code is available at https://github.com/RitianLuo/logits-sam-dpo.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、訓練済みの大規模言語モデルと人間の嗜好を整合させるアルゴリズムとして、その単純さと訓練安定性のために登場した。
しかし、DPOは、最近同定されたスクイーズ効果(確率変位とも呼ばれる)に悩まされ、トレーニング中に好む反応の確率が意図せず減少する。
この現象を理解し、緩和するために、ロジット空間の座標ワイドダイナミクスをモデル化する理論的枠組みを開発する。
解析の結果, 負の漸進的更新は, 高曲率方向に沿って急速に拡大し, シャープネス・アウェアの最小化(SAM)は曲率・規則化効果によってその挙動を抑えることが明らかとなった。
この知見に基づいて,出力層のみを無視可能なオーバーヘッドで摂動する計算効率の良い変種であるlogits-SAMについて検討する。
複数のデータセットとベンチマークにわたるPythia-2.8B、Mistral-7B、Gemma-2B-ITの大規模な実験は、ロジットSAMがDPOの有効性を一貫して改善し、他のDPO亜種とシームレスに統合できることを実証している。
コードはhttps://github.com/RitianLuo/logits-sam-dpoで公開されている。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Gradient Compression May Hurt Generalization: A Remedy by Synthetic Data Guided Sharpness Aware Minimization [42.77143251031899]
フェデレート学習(FL)における勾配圧縮は、無視可能な性能劣化を伴う通信効率を大幅に向上させる。
我々は,大域的モデル軌道を利用して合成データを構築し,大域的摂動の正確な推定を容易にするFedSynSAMを提案する。
論文 参考訳(メタデータ) (2026-02-12T05:08:49Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Towards the Flatter Landscape and Better Generalization in Federated
Learning under Client-level Differential Privacy [67.33715954653098]
本稿では,DPの負の影響を軽減するために勾配摂動を利用するDP-FedSAMという新しいDPFLアルゴリズムを提案する。
具体的には、DP-FedSAM は Sharpness Aware of Minimization (SAM) を統合し、安定性と重みのある局所平坦度モデルを生成する。
より優れた性能を保ちながら、さらにマグニチュードランダムノイズを低減するために、ローカル更新スペーシフィケーション手法を用いてDP-FedSAM-$top_k$を提案する。
論文 参考訳(メタデータ) (2023-05-01T15:19:09Z) - {\delta}-SAM: Sharpness-Aware Minimization with Dynamic Reweighting [17.50856935207308]
対人訓練は、敵に選択された摂動の上にある損失の変化を規則化し、一般化を改善する効果を示した。
最近提案されたシャープネス対応最小化(SAM)アルゴリズムは、逆方向の重みの摂動を採用し、モデルが平坦なミニマに収束することを奨励する。
本稿では,各バッチ内の動的再重み付き摂動について,非ガード型インスタンスが高重み付きである場合,インスタンスごとの摂動より優れた近似法として機能することを提案する。
論文 参考訳(メタデータ) (2021-12-16T10:36:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。