論文の概要: Weights-Rotated Preference Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17637v1
- Date: Mon, 25 Aug 2025 03:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.6216
- Title: Weights-Rotated Preference Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルに対する重み付き優先度最適化
- Authors: Chenxu Yang, Ruipeng Jia, Mingyu Zheng, Naibin Gu, Zheng Lin, Siyuan Chen, Weichong Yin, Hua Wu, Weiping Wang,
- Abstract要約: 本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点 で上回っている。
- 参考スコア(独自算出の注目度): 30.25242193651982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the efficacy of Direct Preference Optimization (DPO) in aligning Large Language Models (LLMs), reward hacking remains a pivotal challenge. This issue emerges when LLMs excessively reduce the probability of rejected completions to achieve high rewards, without genuinely meeting their intended goals. As a result, this leads to overly lengthy generation lacking diversity, as well as catastrophic forgetting of knowledge. We investigate the underlying reason behind this issue, which is representation redundancy caused by neuron collapse in the parameter space. Hence, we propose a novel Weights-Rotated Preference Optimization (RoPO) algorithm, which implicitly constrains the output layer logits with the KL divergence inherited from DPO and explicitly constrains the intermediate hidden states by fine-tuning on a multi-granularity orthogonal matrix. This design prevents the policy model from deviating too far from the reference model, thereby retaining the knowledge and expressive capabilities acquired during pre-training and SFT stages. Our RoPO achieves up to a 3.27-point improvement on AlpacaEval 2, and surpasses the best baseline by 6.2 to 7.5 points on MT-Bench with merely 0.015% of the trainable parameters, demonstrating its effectiveness in alleviating the reward hacking problem of DPO.
- Abstract(参考訳): LLM(Large Language Models)の整合性における直接選好最適化(DPO)の有効性にもかかわらず、報酬ハッキングは依然として重要な課題である。
この問題は、LLMが意図した目標を真に満たさずに、拒否された完了の確率を過度に減らして高い報酬を得るときに生じる。
その結果、多様性が欠如している過度に長い世代が生まれ、また破滅的な知識の忘れがもたらされる。
本稿では, パラメータ空間におけるニューロンの崩壊に起因する表現冗長性について検討する。
そこで本研究では,DPO から受け継いだ KL 分散度で出力層ロジットを暗黙的に制約し,多粒度直交行列の微調整により中間隠れ状態を明示的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
この設計により、ポリシーモデルが基準モデルから遠すぎることが防止され、事前学習とSFTの段階で得られる知識と表現能力が維持される。
我々のRoPOは、AlpacaEval 2の3.27ポイントの改善を実現し、トレーニング可能なパラメータの0.015%をMT-Benchの6.2から7.5ポイントを越え、DPOの報酬ハッキング問題を緩和する効果を示した。
関連論文リスト
- A Stable and Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Orthogonal Finetuning for Direct Preference Optimization [33.09944763583021]
重み付き優先度最適化(RoPO)法によるDPOの微調整を提案する。
RoPOは、超球面エネルギー不変量を維持するために、重みパラメータの回転および等級ストレッチング更新を行う。
我々のモデルは、トレーニング可能なパラメータの0.0086%しか使用せずに、元の表現能力を維持しながら、人間の好みと完全に一致します。
論文 参考訳(メタデータ) (2024-09-23T09:09:16Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。