論文の概要: Small-Margin Preferences Still Matter-If You Train Them Right
- arxiv url: http://arxiv.org/abs/2602.00954v1
- Date: Sun, 01 Feb 2026 01:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.487755
- Title: Small-Margin Preferences Still Matter-If You Train Them Right
- Title(参考訳): 小さなマージンの選好はまだまだ重要だ-もしあなたが正しいトレーニングをすれば
- Authors: Jinlong Pang, Zhaowei Zhu, Na Di, Yichi Zhang, Yaxuan Wang, Chen Qian, Yang Liu,
- Abstract要約: ペアの難易度は最適化目標と強く相互作用することを示す。
そこで本研究では,MixDPOを提案する。
我々は、MixDPOがDPOのアライメントを一貫して改善し、また、広く使われている様々な変種も改善していることを示す。
- 参考スコア(独自算出の注目度): 24.058773077803895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization methods such as DPO align large language models (LLMs) using paired comparisons, but their effectiveness can be highly sensitive to the quality and difficulty of preference pairs. A common heuristic treats small-margin (ambiguous) pairs as noisy and filters them out. In this paper, we revisit this assumption and show that pair difficulty interacts strongly with the optimization objective: when trained with preference-based losses, difficult pairs can destabilize training and harm alignment, yet these same pairs still contain useful supervision signals when optimized with supervised fine-tuning (SFT). Motivated by this observation, we propose MixDPO, a simple yet effective difficulty-aware training strategy that (i) orders preference data from easy to hard (a curriculum over margin-defined difficulty), and (ii) routes difficult pairs to an SFT objective while applying a preference loss to easy pairs. This hybrid design provides a practical mechanism to leverage ambiguous pairs without incurring the optimization failures often associated with preference losses on low-margin data. Across three LLM-judge benchmarks, MixDPO consistently improves alignment over DPO and a range of widely-used variants, with particularly strong gains on AlpacaEval~2 length-controlled (LC) win rate.
- Abstract(参考訳): DPOのような選好最適化手法はペア比較を用いて大言語モデル(LLM)を整列させるが、その効果は選好ペアの品質や難易度に非常に敏感である。
一般的なヒューリスティックは、小さなマージン(あいまいな)ペアをノイズとして扱い、それらをフィルタリングする。
本稿では、この仮定を再考し、ペアの難易度が最適化目標と強く相互作用することを示す: 好みに基づく損失で訓練された場合、困難なペアはトレーニングとアライメントを不安定にすることができるが、これらのペアは、教師付き微調整(SFT)で最適化されたときに有用な監視信号を含む。
この観察によって動機づけられたMixDPOは、シンプルで効果的で難易度の高いトレーニング戦略である。
一 選好データを易しから難し(余分に定義された難易度に関するカリキュラム)、
(2)難解なペアをSFT対象にルートし、易解なペアに選好損失を適用した。
このハイブリッド設計は、不明瞭なペアを利用するための実践的なメカニズムを提供する。
3つの LLM-judge ベンチマークで、MixDPO は DPO のアライメントを一貫して改善し、特に AlpacaEval~2 長制御(LC) の勝利率に大きく貢献する。
関連論文リスト
- DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations [22.299736215070343]
MLLM(Multimodal Large Language Models)は、容易に区別できる好みのペアを過度に強調する傾向がある。
本稿では,学習過程のバランスをとるための費用対効果の高いフレームワークであるDA-DPOを提案する。
論文 参考訳(メタデータ) (2026-01-02T09:41:54Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。