論文の概要: Jointly Reinforcing Diversity and Quality in Language Model Generations
- arxiv url: http://arxiv.org/abs/2509.02534v1
- Date: Tue, 02 Sep 2025 17:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.126771
- Title: Jointly Reinforcing Diversity and Quality in Language Model Generations
- Title(参考訳): 言語モデル生成における多様性と品質の共同強化
- Authors: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang,
- Abstract要約: 大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
- 参考スコア(独自算出の注目度): 64.72289248044514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for response quality and semantic diversity. At its core, DARLING introduces a learned partition function to measure diversity beyond surface-level lexical variations. This diversity signal is then combined with a quality reward during online reinforcement learning, encouraging models to generate outputs that are both high-quality and distinct. Experiments across multiple model families and sizes show that DARLING generalizes to two regimes: non-verifiable tasks (instruction following and creative writing) and verifiable tasks (competition math). On five benchmarks in the first setting, DARLING consistently outperforms quality-only RL baselines, producing outputs that are simultaneously of higher quality and novelty. In the second setting, DARLING achieves higher pass@1 (solution quality) and pass@k (solution variety). Most strikingly, explicitly optimizing for diversity catalyzes exploration in online RL, which manifests itself as higher-quality responses.
- Abstract(参考訳): 大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
ポストトレーニングによって応答品質が向上する一方で、出力分布を短縮し、アイデアの範囲を縮小し、ブレインストーミングやストーリーテリング、問題解決といった創造的で探索的なタスクにおけるLMの有用性を制限します。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
中心となるDARlingは、表面レベルの語彙変化を超えて多様性を測定するための学習された分割関数を導入している。
この多様性信号は、オンライン強化学習における品質報酬と組み合わせられ、高品質かつ区別されたアウトプットを生成するようモデルに促される。
複数のモデルファミリとサイズにわたる実験により、DARlingは、検証不可能なタスク(命令の追従と創造的な記述)と検証可能なタスク(競合数学)の2つのレジームに一般化していることが示された。
最初の5つのベンチマークでは、DARlingは品質のみのRLベースラインを一貫して上回り、高品質で斬新な出力を生成する。
2つ目の設定では、DARlingはより高いpass@1(ソリューションの品質)とpass@k(ソリューションの多様性)を達成する。
最も注目すべきは、多様性を明示的に最適化することは、自らを高品質な応答として表しているオンラインRLの探索を触媒する。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Modifying Large Language Model Post-Training for Diverse Creative Writing [12.872333448726595]
創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文 参考訳(メタデータ) (2025-03-21T13:21:45Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Diversity-Rewarded CFG Distillation [62.08448835625036]
そこで本研究では,CFGの限界に対処しつつ,CFGの強度を蒸留する新しい微調整法であるCFG蒸留を導入する。
提案手法は,(1)蒸留目標,(CFGを使わずに)モデルのみにCFG拡張予測を模倣するよう促すこと,(2)多様性報酬を付与したRL目標,および与えられたプロンプトに対する多様な出力の生成を促進すること,の2つの訓練目標を最適化する。
論文 参考訳(メタデータ) (2024-10-08T14:40:51Z) - Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning [28.654890118684957]
生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コモンセンス知識を用いて状況を理解するためのモデルを必要とする。
生成の多様性は、モデルが様々な常識的知識事実を使用する能力を反映しているため、同様に重要である。
そこで本研究では,LLMの世代を多様化し,その品質を保ちながら簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:52:39Z) - Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。
実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。
オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。