論文の概要: ComPO: Preference Alignment via Comparison Oracles
- arxiv url: http://arxiv.org/abs/2505.05465v1
- Date: Thu, 08 May 2025 17:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.993012
- Title: ComPO: Preference Alignment via Comparison Oracles
- Title(参考訳): ComPO: 比較Oracleによる推奨アライメント
- Authors: Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin,
- Abstract要約: 比較オークスに基づく新しい選好アライメント手法を提案し,その基本スキームに対する収束保証を提供する。
私たちの研究の目玉は、明確なマージンを持つ選好ペアのための特殊な手法を設計することの重要性を実証することである。
- 参考スコア(独自算出の注目度): 36.81379432115315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct alignment methods are increasingly used for aligning large language models (LLMs) with human preferences. However, these methods suffer from the issues of verbosity and likelihood displacement, which can be driven by the noisy preference pairs that induce similar likelihood for preferred and dispreferred responses. The contributions of this paper are two-fold. First, we propose a new preference alignment method based on comparison oracles and provide the convergence guarantee for its basic scheme. Second, we improve our method using some heuristics and conduct the experiments to demonstrate the flexibility and compatibility of practical scheme in improving the performance of LLMs using noisy preference pairs. Evaluations are conducted across multiple base and instruction-tuned models (Mistral-7B, Llama-3-8B and Gemma-2-9B) with benchmarks (AlpacaEval 2, MT-Bench and Arena-Hard). Experimental results show the effectiveness of our method as an alternative to addressing the limitations of existing direct alignment methods. A highlight of our work is that we evidence the importance of designing specialized methods for preference pairs with distinct likelihood margin, which complements the recent findings in \citet{Razin-2025-Unintentional}.
- Abstract(参考訳): 直接アライメント法は、大きな言語モデル(LLM)と人間の嗜好の整合にますます用いられる。
しかし、これらの手法は、好ましくも好ましくない応答に対して同様の可能性をもたらす雑音の選好ペアによって駆動される、冗長性や可能性のずれの問題に悩まされる。
本論文の貢献は2つある。
まず、比較オークスに基づく新しい選好アライメント手法を提案し、その基本スキームに対する収束保証を提供する。
第2に,本手法をヒューリスティックスを用いて改良し,騒音優先ペアを用いたLCMの性能向上における実用的スキームの柔軟性と適合性を実証する実験を行った。
Mistral-7B, Llama-3-8B, Gemma-2-9B)とベンチマーク(AlpacaEval 2, MT-Bench, Arena-Hard)で評価を行った。
実験の結果,既存の直接アライメント手法の限界に対処する代替手段として,本手法の有効性が示された。
我々の研究のハイライトは、異なるマージンを持つ選好ペアの特殊手法を設計することの重要性を実証することであり、これは最近の \citet{Razin-2025-Unintentional} の知見を補完するものである。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。
我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。
各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-19T04:31:56Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。