論文の概要: Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.04265v1
- Date: Wed, 04 Feb 2026 06:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.40981
- Title: Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
- Title(参考訳): 厚みと薄み:LLM推論のためのヒューマンインスパイアされた学習ダイナミクスによる逆方向整形
- Authors: Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルにおける推論を強化するための有望なパラダイムとして登場した。
既存の報酬体系は、問題解決における広範囲な探索の必要性と、熟達した知識に必要な効率とを区別することができない。
人間の学習プロセスにインスパイアされた動的報酬フレームワークであるT2Tを紹介する。
- 参考スコア(独自算出の注目度): 22.245126662576435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for enhancing reasoning in Large Language Models (LLMs). However, it frequently encounters challenges such as entropy collapse, excessive verbosity, and insufficient exploration for hard problems. Crucially, existing reward schemes fail to distinguish between the need for extensive search during problem-solving and the efficiency required for mastered knowledge. In this work, we introduce T2T(Thickening-to-Thinning), a dynamic reward framework inspired by human learning processes. Specifically, it implements a dual-phase mechanism: (1) On incorrect attempts, T2T incentivizes "thickening" (longer trajectories) to broaden the search space and explore novel solution paths; (2) Upon achieving correctness, it shifts to "thinning", imposing length penalties to discourage redundancy, thereby fostering model confidence and crystallizing reasoning capabilities. Extensive experiments on mathematical benchmarks (MATH-500, AIME, AMC) across Qwen-series and Deepseek models demonstrate that T2T significantly outperforms standard GRPO and recent baselines, achieving superior performance.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) における推論向上のための,有望なパラダイムとして登場した。
しかし、エントロピー崩壊、過剰な冗長性、難題の探究不足といった問題にしばしば遭遇する。
重要なことに、既存の報酬体系は、問題解決における広範囲な探索の必要性と、熟達した知識に必要な効率とを区別することができない。
本研究では,人間の学習プロセスにインスパイアされた動的報酬フレームワークであるT2T(Thickening-to-Thinning)を紹介する。
具体的には,(1)不正確な試みにおいて,T2Tは探索空間を拡大し,新しい解経路を探索するために"thickening"(より長い軌道)をインセンティブ化し,(2)正当性を達成すると「thinning」に移行し,冗長性を抑えるために長さのペナルティを課し,モデルの信頼性を高め,推論能力を結晶化する。
QwenシリーズおよびDeepseekモデルにおける数学ベンチマーク(MATH-500, AIME, AMC)の広範な実験により、T2Tは標準GRPOと最近のベースラインを著しく上回り、優れた性能を達成していることが示された。
関連論文リスト
- Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - ScRPO: From Errors to Insights [47.828888776503675]
問題のある数学的問題に対して,大規模言語モデルを強化するための自己補正相対ポリシー最適化(ScRPO)を提案する。
本手法は,試行錯誤学習段階と自己訂正学習段階の2段階からなる。
AIME、AMC、Olympiad、MATH-500、GSM8k、Deepseek-Distill-Qwen-1.5B、Deepseek-Distill-Qwen-7Bなど、複数の数学推論ベンチマークの広範な実験が行われた。
論文 参考訳(メタデータ) (2025-11-08T16:30:44Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning [37.20632079882874]
DACE(Difficulty Aware Certainty guided Exploration)を紹介する。
政策の成功率に基づいて、探索的エクスプロイトのトレードオフをバランスさせる。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-29T08:57:54Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。