論文の概要: Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs
- arxiv url: http://arxiv.org/abs/2605.30021v2
- Date: Tue, 02 Jun 2026 18:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.562403
- Title: Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs
- Title(参考訳): 損なうことなく多様性を回復する - 訓練後LLMのためのDPOレシピ
- Authors: Vinay Samuel, Yapei Chang, Mohit Iyyer,
- Abstract要約: 我々は、異なる有効な回答モードを復元するためのオフラインDPOデータ構築パイプラインであるREDIPOを紹介した。
各プロンプトに対して、REDIPOは、ベースモデルとインストラクションモデルの両方からのレスポンスをサンプリングし、インストラクションモデルでベースモデルレスポンスを書き直し、安全性とインストラクションフォロー品質の候補をフィルタリングする。
Qwen3-4B、OLMo-3-7B、LLaMA-3.1-8Bの他、REDIPOはノベルティベンチのディファレンシャル_kを134%、33%、44%改善し、DivPOは多様性を0%、-6%、-4%改善した。
- 参考スコア(独自算出の注目度): 26.527631359992125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many open-ended instructions have multiple valid answers that users can benefit from seeing, but post-training often narrows an LLM's output space toward a small set of canonical responses. We introduce REDIPO, an offline DPO data-construction pipeline for recovering distinct valid answer modes while preserving the alignment benefits of the instruct model. For each prompt, REDIPO samples responses from both base and instruct models, rewrites base-model responses with the instruct model, filters candidates for safety and instruction-following quality, and builds preference pairs that favor marginally diverse responses among candidates with similar instruction-following reward. Across Qwen3-4B, OLMo-3-7B, and LLaMA-3.1-8B, REDIPO improves NoveltyBench distinct_k by 134%, 33%, and 44% relative to the instruct checkpoints, while DivPO changes diversity by 0%, -6%, and -4% on the same models. These gains largely maintain MTBench, IFEval, and Arena-Hard performance, and reduce direct-category HarmBench attack success rate. Ablations show that marginal-diversity pair selection and base-response rewriting drive the diversity gains, while filtering and quality-bounded pairing help maintain alignment. Overall, our results show that diverse valid answers from base-model generations can be reintroduced through carefully constructed preference data while retaining the alignment benefits of post-training. We release our code and data at https://github.com/vsamuel2003/ReDiPO.
- Abstract(参考訳): 多くのオープンエンド命令は、ユーザーが見ることができる複数の有効な答えを持っているが、ポストトレーニングはLLMの出力空間を少数の標準応答に制限することが多い。
インストラクションモデルのアライメントのメリットを保ちながら、明確な有効な回答モードを復元するためのオフラインDPOデータコンストラクションパイプラインであるREDIPOを紹介します。
各プロンプトに対して、REDIPOは、ベースモデルとインストラクションモデルの両方からのレスポンスをサンプリングし、インストラクションモデルでベースモデルレスポンスを書き直し、安全性とインストラクションフォロー品質の候補をフィルタリングし、同様のインストラクションフォロー報酬を持つ候補間で、極端に多様なレスポンスを優先するペアを構築する。
Qwen3-4B、OLMo-3-7B、LLaMA-3.1-8Bの他、REDIPOはノベルティベンチのディファレンシャル_kを134%、33%、44%改善し、DivPOは多様性を0%、-6%、-4%改善した。
これらの利益は主にMTBench、IFEval、Arena-Hardのパフォーマンスを維持し、直接カテゴリのHarmBench攻撃の成功率を減らす。
アブレーションは、限界ダイバーシティペアの選択とベースレスポンスリライトが多様性の向上を促進する一方で、フィルタリングと品質バウンドペアリングはアライメントを維持するのに役立つことを示している。
以上の結果から, 事前学習のアライメントの利点を維持しつつ, 慎重に構築された嗜好データを用いて, 基本モデル世代からの多様な有効回答を再導入できることが示唆された。
コードとデータはhttps://github.com/vsamuel2003/ReDiPO.comで公開しています。
関連論文リスト
- MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization [66.81594613265833]
直接選好最適化(DPO)を拡張したPlackett--Luce(PL)モデルに基づくマルチ負の選好最適化
そこで本研究では,PL固有のフィッシャー情報目的を導出し,各プロンプト内のコンパクトで情報的な負の部分集合を選択するマルチ負のアクティブサンプル選択法であるMASS-DPOを紹介する。
MASS-DPOは、既存の手法を常に精度で上回り、リコール/NDCGとマージンベースの最適化のダイナミクスを改善し、かなり少ない負のアライメントを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:18:08Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。
実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。
異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。