論文の概要: Orthogonal Finetuning for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2409.14836v2
- Date: Tue, 24 Sep 2024 03:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:50:08.810072
- Title: Orthogonal Finetuning for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のための直交ファインタニング
- Authors: Chenxu Yang, Ruipeng Jia, Naibin Gu, Zheng Lin, Siyuan Chen, Chao Pang, Weichong Yin, Yu Sun, Hua Wu, Weiping Wang,
- Abstract要約: 重み付き優先度最適化(RoPO)法によるDPOの微調整を提案する。
RoPOは、超球面エネルギー不変量を維持するために、重みパラメータの回転および等級ストレッチング更新を行う。
我々のモデルは、トレーニング可能なパラメータの0.0086%しか使用せずに、元の表現能力を維持しながら、人間の好みと完全に一致します。
- 参考スコア(独自算出の注目度): 46.38508475165443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DPO is an effective preference optimization algorithm. However, the DPO-tuned models tend to overfit on the dispreferred samples, manifested as overly long generations lacking diversity. While recent regularization approaches have endeavored to alleviate this issue by modifying the objective function, they achieved that at the cost of alignment performance degradation. In this paper, we innovatively incorporate regularization from the perspective of weight updating to curb alignment overfitting. Through the pilot experiment, we discovered that there exists a positive correlation between overfitting and the hyperspherical energy fluctuation. Hence, we introduce orthogonal finetuning for DPO via a weight-Rotated Preference Optimization (RoPO) method, which merely conducts rotational and magnitude-stretching updates on the weight parameters to maintain the hyperspherical energy invariant, thereby preserving the knowledge encoded in the angle between neurons. Extensive experiments demonstrate that our model aligns perfectly with human preferences while retaining the original expressive capacity using only 0.0086% of the trainable parameters, suggesting an effective regularization against overfitting. Specifically, RoPO outperforms DPO by up to 10 points on MT-Bench and by up to 2.8 points on AlpacaEval 2, while enhancing the generation diversity by an average of 6 points.
- Abstract(参考訳): DPOは効果的な選好最適化アルゴリズムである。
しかし、DPOで調整されたモデルは、多様性に欠ける過度に長い世代として表される、好ましくないサンプルに過度に適合する傾向にある。
最近の正規化手法は、目的関数を変更することでこの問題を緩和しようと努力してきたが、性能劣化のコストを犠牲にして実現した。
本稿では,重み更新の観点からの正規化を革新的に取り入れ,アライメントオーバーフィッティングを抑制する。
実験により, オーバーフィッティングと超球面エネルギー変動との間に正の相関があることが判明した。
これにより、重みパラメータの回転および等級伸長を単純に行うだけで、超球面エネルギー不変量を維持することができ、ニューロン間の角度で符号化された知識を保存できる。
実験の結果, トレーニング可能なパラメータの0.0086%しか使用せず, 人間の嗜好と完全に一致していることが示され, オーバーフィットに対する効果的な正規化が示唆された。
具体的には、MT-Benchで最大10ポイント、AlpacaEval 2で最大2.8ポイント、そして平均6ポイントでDPOを上回ります。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Spectral Adapter: Fine-Tuning in Spectral Space [45.72323731094864]
本研究では, 既訓練重量行列のスペクトル情報を微調整手順に組み込むことにより, 現在のPEFT法の強化について検討した。
提案するファインチューニングモデルにより,パラメータ効率とチューニング性能が向上し,マルチアダプタ融合のメリットが期待できることを示す。
論文 参考訳(メタデータ) (2024-05-22T19:36:55Z) - Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。