論文の概要: Group-Aware Reinforcement Learning for Output Diversity in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12596v1
- Date: Sun, 16 Nov 2025 13:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.398968
- Title: Group-Aware Reinforcement Learning for Output Diversity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける出力多様性に対するグループ認識強化学習
- Authors: Oron Anschel, Alon Shoshan, Adam Botach, Shunit Haviv Hakimi, Asaf Gendler, Emanuel Ben Baruch, Nadav Bhonker, Igor Kviatkovsky, Manoj Aggarwal, Gerard Medioni,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばモード崩壊に悩まされ、有効な回答が多数存在する場合でも、同じ少数の完了を繰り返し生成する。
本稿では,GAPO(Group-Aware Policy Optimization)を紹介する。GAPO(Group Relative Policy Optimization)のシンプルな拡張で,グループ全体の報酬を計算する。
周波数認識型報酬関数を用いてGAPOを実証し、有効なLLM完了に対する一様サンプリングを奨励し、GAPOが学習したモデルが有効でより多様なモデル応答を生成することを示す。
- 参考スコア(独自算出の注目度): 8.356950556877612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often suffer from mode collapse, repeatedly generating the same few completions even when many valid answers exist, limiting their diversity across a wide range of tasks. We introduce Group-Aware Policy Optimization (GAPO), a simple extension of the recent and popular Group Relative Policy Optimization (GRPO) that computes rewards over the group as a whole. GAPO enables learning from the group-level properties such as diversity and coverage. We demonstrate GAPO using a frequency-aware reward function that encourages uniform sampling over valid LLM completions, and show that GAPO-trained models produce valid and more diverse model responses. Beyond this setup, GAPO generalizes to open-ended prompts and improves response diversity without compromising accuracy on standard LLM benchmarks (GSM8K, MATH, HumanEval, MMLU-Pro). Our code will be made publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしばモード崩壊に悩まされ、多くの有効な回答が存在する場合でも、同じ少数の完了を繰り返し生成し、幅広いタスクにまたがる多様性を制限する。
本稿では,GAPO(Group-Aware Policy Optimization)を紹介する。GAPO(Group Relative Policy Optimization)は,GAPO(Group Relative Policy Optimization)のシンプルな拡張で,グループ全体に対する報酬を計算する。
GAPOは、多様性やカバレッジといったグループレベルの特性から学ぶことができる。
周波数認識型報酬関数を用いてGAPOを実証し、有効なLLM完了に対する一様サンプリングを奨励し、GAPOが学習したモデルが有効でより多様なモデル応答を生成することを示す。
この設定以外にも、GAPOはオープンなプロンプトに一般化し、標準LLMベンチマーク(GSM8K、MATH、HumanEval、MMLU-Pro)の精度を損なうことなく応答の多様性を向上させる。
私たちのコードは公開されます。
関連論文リスト
- GAPO: Group Adaptive Policy Optimization for Real-World Code Edit [18.191276089029607]
Group Adaptive Policy Optimization (GAPO) は、各プロンプト当たりのoutlier-free highest-density interval (HDI)を見つけ、その区間の中央値を適応Qとして利用して、グループ平均を有利な計算で置き換える。
GAPOは、プラグアンドプレイと効率を保ちながら、歪んだ分布を頑健に処理する。
GAPOを実世界51,844の大規模内部データセットを用いて,9つの命令調整LDM(3B-14B)上で検証する。
論文 参考訳(メタデータ) (2025-10-22T03:37:49Z) - Understanding Generative Recommendation with Semantic IDs from a Model-scaling View [57.471604518714535]
Generative Recommendation (GR)は、リッチアイテムのセマンティクスと協調フィルタリング信号を統合する。
一般的なアプローチの1つは、セマンティックID(SID)を使用して、自動回帰ユーザーインタラクションシーケンスモデリングのセットアップでアイテムを表現することである。
SIDをベースとしたGRは,モデルをスケールアップしながら大きなボトルネックを示す。
我々は、大規模言語モデル(LLM)を直接レコメンデーションとして使用する別のGRパラダイムを再考する。
論文 参考訳(メタデータ) (2025-09-29T21:24:17Z) - GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning [57.888537648437115]
Group Context Optimization (GroupCoOp) は、単純で効果的な微調整アルゴリズムである。
微調整視覚言語モデル(VLM)の群ロバスト性を高める
GroupCoOpは、5つのCLIPアーキテクチャにわたる5つのベンチマークで最高の結果を得た。
論文 参考訳(メタデータ) (2025-09-28T09:54:30Z) - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs [77.22973302887435]
グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。
GRPOの単純なマルチモジュールであるmmGRPOを提案する。
自動的なプロンプト最適化によって構成されたmGRPOは,分類,多項目検索,プライバシー保護デリゲートタスクなどを通じて,平均11%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:28:31Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文 参考訳(メタデータ) (2025-07-25T17:42:32Z) - The Pitfalls of Growing Group Complexity: LLMs and Social Choice-Based Aggregation for Group Recommendations [2.6470894980840525]
Group Recommender Systems (GRS) は、社会的選択に基づくアグリゲーション戦略を使って単一のレコメンデーションを導いた。
ゼロショット学習に基づいて,言語モデルがこれらの戦略を正しく実行できる条件について検討する。
100以上のレーティングを考慮すると、パフォーマンスが低下し始めています。
今後の研究は、GRS評価の要素としてグループ複雑性を含むべきであると結論付けている。
論文 参考訳(メタデータ) (2025-05-08T07:43:01Z) - Group Preference Optimization: Few-Shot Alignment of Large Language Models [28.464834028110538]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。