論文の概要: DCRM: A Heuristic to Measure Response Pair Quality in Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.14157v1
- Date: Tue, 17 Jun 2025 03:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.31448
- Title: DCRM: A Heuristic to Measure Response Pair Quality in Preference Optimization
- Title(参考訳): DCRM: 優先順位最適化における応答ペアの品質測定のためのヒューリスティック
- Authors: Chengyu Huang, Tanya Goyal,
- Abstract要約: 本研究は,2つの軸に沿って分類された3種類の嗜好データセットについて検討する。
トレーニングセットの高次距離校正リワードマージンと学習結果の総合的相関性を確立する。
提案手法は,AlpacaEval,MT-Bench,Arena-Hardなどのモデルの性能を向上させるためのトレーニングデータセットを生成する。
- 参考スコア(独自算出の注目度): 13.366219858094297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has attempted to associate preference optimization (PO) performance with the underlying preference datasets. In this work, our observation is that the differences between the preferred response $y^+$ and dispreferred response $y^-$ influence what LLMs can learn, which may not match the desirable differences to learn. Therefore, we use distance and reward margin to quantify these differences, and combine them to get Distance Calibrated Reward Margin (DCRM), a metric that measures the quality of a response pair for PO. Intuitively, DCRM encourages minimal noisy differences and maximal desired differences. With this, we study 3 types of commonly used preference datasets, classified along two axes: the source of the responses and the preference labeling function. We establish a general correlation between higher DCRM of the training set and better learning outcome. Inspired by this, we propose a best-of-$N^2$ pairing method that selects response pairs with the highest DCRM. Empirically, in various settings, our method produces training datasets that can further improve models' performance on AlpacaEval, MT-Bench, and Arena-Hard over the existing training sets.
- Abstract(参考訳): 近年の研究では、選好最適化(PO)性能と基礎となる選好データセットの関連付けが試みられている。
本研究では,所望の応答 $y^+$ と非推奨応答 $y^-$ の差が LLM が学べるものに与える影響を考察する。
したがって、距離と報酬マージンを用いてこれらの差を定量化し、それらを組み合わせて、POの応答対の品質を測定する指標であるDCRM(Distance Calibrated Reward Margin)を得る。
直感的には、DCRMは最小ノイズ差と最大所望の差を奨励します。
そこで本研究では,2つの軸に沿って分類された3種類の嗜好データセットについて検討した。
トレーニングセットの上位DCRMと学習結果の総合的相関を確立する。
そこで本研究では,最も高いDCRMを持つ応答対を選択するベスト・オブ・N^2$ペアリング法を提案する。
実験では,既存のトレーニングセットよりもAlpacaEval, MT-Bench, Arena-Hardのモデルの性能を向上する訓練データセットを試作した。
関連論文リスト
- AMPO: Active Multi-Preference Optimization for Self-play Preference Selection [16.230186347702737]
マルチパラメータ最適化は、有用な応答と望ましくない応答の集合全体を対比することにより、ペアの好みを超えた言語モデルアライメントを強化する。
そこで本稿では,オンライン・プライス・ジェネレーション,マルチ・コントラスト・グループ・コントラスト・ロス,アクティブ・サブセット選択を組み合わせた新しいアプローチである,$textitActive Multi-Preference Optimization$ (AMPO)を提案する。
AMPO は Llama 8B と Mistral Mist 7B を使って $textitAlpacaEval$ で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-25T15:29:51Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。