論文の概要: DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization
- arxiv url: http://arxiv.org/abs/2605.10863v1
- Date: Mon, 11 May 2026 17:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.584059
- Title: DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization
- Title(参考訳): DGPO: 方向性整合なグループワイズ最適化によるペアワイズ推論を超えて
- Authors: Mengyi Deng, Zhiwei Li, Xin Li, Tingyu Zhu, Yulan Yuan, Zhijiang Guo, Wei Wang,
- Abstract要約: 本稿では,グループレベルでの監視信号を集約し,方向対応アライメントを明示的にモデル化する軽量フレームワークであるDGPOを提案する。
構築したリバースデータは5つのベンチマークで平均3.2%向上し、DGPOは複数のデータセットとモデルファミリで一貫したゲインを提供し、平均精度は3.6%向上した。
- 参考スコア(独自算出の注目度): 17.28534525169732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) have made remarkable progress, current preference optimization methods still struggle to align directional consistency while preserving reasoning diversity. To address this limitation, we propose Directional-Groupwise Preference Optimization (DGPO), a lightweight framework that aggregates supervision signals at the group level and explicitly models direction-aware alignment through multi-candidate comparisons. DGPO organizes forward and reverse question-answer instances into structured sets and optimizes a margin-based likelihood objective that separates coherent reasoning paths from inconsistent alternatives. This group-wise formulation captures richer relative information than pairwise objectives and reinforces consistency across diverse reasoning pathways. Empirical results show that our constructed reverse data yields a 3.2% average improvement across five benchmarks, while DGPO further delivers consistent gains across multiple datasets and model families, achieving average accuracy improvements of up to 3.6%.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、現在の選好最適化手法は、推論の多様性を保ちながら方向性の整合性を調整するのに苦慮している。
この制限に対処するため,グループレベルでの監視信号を集約し,多候補比較による方向対応アライメントを明示的にモデル化する軽量フレームワークであるDGPOを提案する。
DGPOは、前と逆の質問応答インスタンスを構造化された集合に整理し、一貫性のない推論パスと一貫性のない代替とを分離するマージンベースの可能性目標を最適化する。
このグループワイドの定式化は、ペアワイドの目的よりもリッチな相対情報を捉え、多様な推論経路をまたいだ一貫性を強化する。
実験の結果,構築したリバースデータは5つのベンチマークで平均3.2%,DGPOは複数のデータセットとモデルファミリで一貫したゲインを実現し,平均精度を最大3.6%向上した。
関連論文リスト
- Continuous-Utility Direct Preference Optimization [14.867957084669497]
私たちは、モデルと迅速な認知戦略のポートフォリオを整合させるフレームワークである、継続的ユーティリティ直接選択最適化(CU-DPO)を紹介します。
K 戦略による学習は、二進選好よりもサンプルの複雑さが Theta(K log K) の改善をもたらすことを証明している。
CU-DPOは7つのベースモデルに対して,戦略選択の精度を35-46パーセントから68-78パーセントに向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T23:15:32Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文 参考訳(メタデータ) (2024-05-30T17:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。