論文の概要: Consensus Group Relative Policy Optimization for Text Generation
- arxiv url: http://arxiv.org/abs/2602.03102v1
- Date: Tue, 03 Feb 2026 04:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.24917
- Title: Consensus Group Relative Policy Optimization for Text Generation
- Title(参考訳): テキスト生成のための合意グループ相対的ポリシー最適化
- Authors: Yuki Ichihara, Yuu Jinnai, Kaito Ariu, Eiji Uchibe,
- Abstract要約: C-GRPOは、グループ相対的な目的としてコンセンサスユーティリティを定式化することにより、最小ベイズリスク(MBR)デコーディングをトレーニングに蒸留する。
理想的な条件下では、C-GRPO の目的関数は期待効用目標の勾配に方向整合していることが示される。
機械翻訳(WMT 2024)とテキスト要約(XSum)の実験は、C-GRPOがMBR復号化に匹敵する性能を達成することを示した。
- 参考スコア(独自算出の注目度): 26.428687964354605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many strong decoding methods for text generation follow a sample-and-rerank paradigm: they draw multiple candidates, score each under a utility (reward) function using consensus across samples, and return the best one. Although effective, these methods incur high computational costs during inference due to repeated sampling and scoring. Prior attempts to amortize inference-time computation typically rely on gold references, teacher labels, or curated preference data, increasing dataset construction effort and the demand for high-fidelity reward models. We propose Consensus Group Relative Policy Optimization (C-GRPO), which distills Minimum Bayes Risk (MBR) decoding into training by formulating the consensus utility as a group-relative objective within GRPO. C-GRPO requires only a utility function and policy samples, without gold references or explicit preference labels. Under ideal conditions, we show that the objective function of C-GRPO is directionally aligned with the gradient of the expected-utility objective underlying MBR decoding, leading to a convergence guarantee. Experiments on machine translation (WMT 2024) and text summarization (XSum) demonstrate that C-GRPO successfully achieves performance comparable to MBR decoding without the associated inference-time overhead, while outperforming reference-free baseline methods.
- Abstract(参考訳): テキスト生成のための多くの強力な復号法は、サンプルと参照のパラダイムに従っており、複数の候補を描画し、サンプル間でのコンセンサスを使用してユーティリティ(逆)関数で各スコアをスコアし、最良の値を返す。
有効ではあるが、これらの手法は繰り返しサンプリングとスコアリングによって推論中に高い計算コストを発生させる。
推論時間の計算を減らそうとする以前の試みは、通常、金の参照、教師のラベル、またはキュレートされた選好データに依存し、データセットの構築の労力が増加し、高忠実な報酬モデルへの需要が高まっていた。
本稿では,コンセンサス・グループ相対政策最適化(C-GRPO)を提案し,コンセンサス・ユーティリティをGRPO内のグループ相対目標として定式化し,最小ベイズリスク(MBR)デコーディングを訓練に用いた。
C-GRPOは、金の参照や明示的な優先ラベルなしで、ユーティリティ関数とポリシーサンプルのみを必要とする。
理想的な条件下では、C-GRPO の目的関数は MBR 復号化の基礎となる期待効用目標の勾配に方向整合していることを示し、収束を保証する。
機械翻訳(WMT 2024)とテキスト要約(XSum)の実験により、C-GRPOは推論時間オーバーヘッドを伴わずにMBRデコードに匹敵する性能を達成し、基準のないベースライン法より優れていることが示された。
関連論文リスト
- TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning [34.38636514331703]
CLaRaは、埋め込みベースの圧縮と共同最適化を共有連続空間で実行する統合フレームワークである。
実験により、CLaRaは、しばしばテキストベースの微調整ベースラインを超える、最先端の圧縮と性能の再ランクを達成することが示された。
論文 参考訳(メタデータ) (2025-11-24T00:11:14Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards [14.535325886547112]
RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T23:14:13Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。