論文の概要: Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs
- arxiv url: http://arxiv.org/abs/2601.08763v1
- Date: Tue, 13 Jan 2026 17:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.314333
- Title: Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs
- Title(参考訳): LLMにおける創造的問題解決のための特異性を考慮したRL
- Authors: Zhiyuan Hu, Yucheng Wang, Yufei He, Jiaying Wu, Yilun Zhao, See-Kiong Ng, Cynthia Breazeal, Anh Tuan Luu, Hae Won Park, Bryan Hooi,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の訓練後の中心パラダイムとなっている。
この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。
我々は,まれなハイレベル戦略を示す正しいソリューションを明示的に報酬する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
- 参考スコア(独自算出の注目度): 126.45104018441698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a central paradigm for post-training large language models (LLMs), particularly for complex reasoning tasks, yet it often suffers from exploration collapse: policies prematurely concentrate on a small set of dominant reasoning patterns, improving pass@1 while limiting rollout-level diversity and gains in pass@k. We argue that this failure stems from regularizing local token behavior rather than diversity over sets of solutions. To address this, we propose Uniqueness-Aware Reinforcement Learning, a rollout-level objective that explicitly rewards correct solutions that exhibit rare high-level strategies. Our method uses an LLM-based judge to cluster rollouts for the same problem according to their high-level solution strategies, ignoring superficial variations, and reweights policy advantages inversely with cluster size. As a result, correct but novel strategies receive higher rewards than redundant ones. Across mathematics, physics, and medical reasoning benchmarks, our approach consistently improves pass@$k$ across large sampling budgets and increases the area under the pass@$k$ curve (AUC@$K$) without sacrificing pass@1, while sustaining exploration and uncovering more diverse solution strategies at scale.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて,特に複雑な推論タスクにおいて中心的なパラダイムとなっている。
この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。
そこで本研究では,レアなハイレベル戦略を示す正しいソリューションを明示的に評価する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
提案手法では,LLM ベースの判定器を用いて,高レベルのソリューション戦略に従って同じ問題に対するロールアウトをクラスタリングし,表面的変動を無視し,クラスタサイズと逆向きにポリシーのアドバンテージを再重み付けする。
結果として、正しいが新しい戦略は、冗長な戦略よりも高い報酬を受ける。
数学、物理学、医学的推論のベンチマーク全体にわたって、我々のアプローチは、大規模なサンプリング予算全体にわたってpass@k$を一貫して改善し、pass@k$曲線(AUC@$K$)の下で、pass@1を犠牲にすることなく領域を拡大します。
関連論文リスト
- The Road Less Traveled: Enhancing Exploration in LLMs via Sequential Sampling [39.65138471548881]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に重要である。
提案するSESA(Sequential SAmpling framework)は,多種多様なソリューションスケッチを逐次生成し,それらを完全な推論経路に拡張する。
合成課題における実験により, 逐次サンプリングは経路の多様性や崩壊からの回復の観点から, 従来のRL法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-17T10:15:11Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。