論文の概要: Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation
- arxiv url: http://arxiv.org/abs/2605.18191v1
- Date: Mon, 18 May 2026 10:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.398599
- Title: Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation
- Title(参考訳): Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation (特集:情報ネットワーク)
- Authors: Guining Cao, Jiaxin Peng, Chu Zeng, Yu Zhao, Shuangyong Song, Yongxiang,
- Abstract要約: Pairwise Preference Reward and Group-based Diversity Enhancement (PPR-GDE) は、よりオープンな生成に適したRL法である。
PPR-GDEはスカラー報酬を必要とせず、グループレベルの多様性を報酬シグナルに組み込む。
実験により,PPR-GDEは強いRLベースラインよりも優れたアライメント品質と表現的多様性が得られることが示された。
- 参考スコア(独自算出の注目度): 12.844689135701529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current reinforcement learning(RL) methods are broadly applicable and powerful in verifiable settings where scalar rewards can be provided. However, in open-ended generation tasks, verifying the correctness of responses remains challenging, and training reward models incurs substantial computational and annotation costs. Moreover, reinforcement learning (RLVR) often leads to diversity collapse and produces stereotypical or rigid outputs, outcomes that are particularly undesirable in open-domain scenarios. We propose Pairwise Preference Reward and Group-based Diversity Enhancement (PPR-GDE), a RL method that is more suitable for open-ended generation. PPR-GDE does not require scalar rewards and incorporates group-level diversity into the reward signal, it preserves the comparative structure of subjective evaluation through a pairwise preference reward, mitigates judge position bias via repeated comparisons with swapped response order, and introduces a group-based diversity reward that explicitly encourages semantic dispersion within a response group, all of these reward signals are integrated into a unified group-relative policy optimization objective. We instantiate PPR-GDE on role-playing task, experiments show that PPR-GDE achieves a better alignment quality as well as expressive diversity than strong RL baselines. Further analysis shows that pairwise preference is critical for preference alignment in subjective perspective, while the diversity metric plays an essential role in achieving superior expressive diversity and broader semantic coverage.
- Abstract(参考訳): 現在の強化学習(RL)法は、スカラー報酬が提供される検証可能な環境において、広く適用され、強力である。
しかしながら、オープンな生成タスクでは、応答の正しさの検証は依然として困難であり、トレーニング報酬モデルは相当な計算とアノテーションのコストを発生させる。
さらに、強化学習(RLVR)は、しばしば多様性の崩壊を招き、特にオープンドメインのシナリオでは望ましくないステレオタイプや厳密なアウトプットを生成する。
Pairwise Preference Reward and Group-based Diversity Enhancement (PPR-GDE)を提案する。
PPR-GDEは、スカラー報酬を必要とせず、グループレベルの多様性を報酬信号に組み込むとともに、一対の選好報酬を通じて主観評価の比較構造を維持し、スワップされた応答順序と繰り返し比較して判断位置バイアスを緩和し、グループベースの多様性報酬を導入する。
ロールプレイングタスクにおいてPPR-GDEをインスタンス化する実験により、PPR-GDEは強力なRLベースラインよりも優れたアライメント品質と表現的多様性を達成することが示された。
さらに分析した結果,主観的視点での嗜好調整にはペアワイズ選好が重要であり,多様性尺度は優れた表現的多様性とより広範な意味的カバレッジを達成する上で不可欠な役割を担っていることがわかった。
関連論文リスト
- Structured Role-Aware Policy Optimization for Multimodal Reasoning [31.08329979854717]
検証可能な報酬(RLVR)からの強化学習は、大規模視覚言語モデル(LVLM)の推論能力を向上させる強力な可能性を示している。
本稿では,ロールアウェアトークンレベルのクレジット割り当ての観点から,マルチモーダルRLVRを再考する。
本稿では,代入関数を変更することなく,シーケンスレベルのGRPOの利点をロールレベルのトークンレベルに改良するSRPO(Structured Role-aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-08T05:37:08Z) - Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment [13.085014101959118]
我々は、バッチ統計から有利な推定を分離する新しいアライメントフレームワークであるPersonalized GRPOを紹介する。
我々はP-GRPOを多種多様なタスクで評価し、標準のGRPOよりも高速な収束と高い報酬を達成することを発見した。
論文 参考訳(メタデータ) (2026-02-17T19:00:43Z) - Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation [51.305316234962554]
textbfDRIFT(textbfDivetextbfRsity-textbfIncentivized Reinforcement textbfFine-textbfTuning for Versatile Image Generation)を提案する。
DRIFTはタスクアライメントとジェネレーションの多様性に関して優れた優位性を達成し、9.08%!sim! 43.46%$多様性等価アライメントレベルの増加と59.65ドルとなる。
論文 参考訳(メタデータ) (2026-01-18T13:25:43Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO [50.89703227426486]
強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
論文 参考訳(メタデータ) (2025-12-25T05:37:37Z) - Diversity-Enhanced Reasoning for Subjective Questions [24.896059589693607]
多様性を高めるトレーニングフレームワークであるMultiRole-R1は、様々な役割の観点から推論チェーンを合成する。
ドメイン内精度とドメイン外精度を14.1%と7.64%向上させ、AIME 2024のような高度な数学推論の性能も向上させる。
論文 参考訳(メタデータ) (2025-07-27T09:07:42Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Towards Multimodal Response Generation with Exemplar Augmentation and
Curriculum Optimization [73.45742420178196]
本稿では,高度化とカリキュラム最適化を併用した,新しいマルチモーダル応答生成フレームワークを提案する。
我々のモデルは多様性と妥当性の点で強いベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-26T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。