論文の概要: Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards
- arxiv url: http://arxiv.org/abs/2510.16614v2
- Date: Thu, 23 Oct 2025 04:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.836776
- Title: Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards
- Title(参考訳): Counts: Count-based Intrinsic Rewards による LLM 推論における探索の動機付け
- Authors: Xuan Zhang, Ruixiao Li, Zhijian Zhou, Long Li, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi,
- Abstract要約: MERCI(Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards)を導入する。
MERCIは、より豊かで多様な思考の連鎖を促進し、強力なベースラインよりも性能を著しく向上させ、より優れたソリューションを見つけるために、ローカルルーチンから逃れるのに役立ちます。
- 参考スコア(独自算出の注目度): 33.42935710088259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has become a compelling way to strengthen the multi step reasoning ability of Large Language Models (LLMs). However, prevalent RL paradigms still lean on sparse outcome-based rewards and limited exploration, which often drives LLMs toward repetitive and suboptimal reasoning patterns. In this paper, we study the central question of how to design exploration for LLM reasoning and introduce MERCI (Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards), a novel RL algorithm that augments policy optimization with a principled intrinsic reward. Building on the idea of count-based exploration, MERCI leverages a lightweight Coin Flipping Network (CFN) to estimate the pseudo count and further epistemic uncertainty over reasoning trajectories, and converts them into an intrinsic reward that values novelty while preserving the learning signal from task rewards. We integrate MERCI into some advanced RL frameworks like Group Relative Policy Optimization (GRPO). Experiments on complex reasoning benchmarks demonstrate that MERCI encourages richer and more varied chains of thought, significantly improves performance over strong baselines, and helps the policy escape local routines to discover better solutions. It indicates that our targeted intrinsic motivation can make exploration reliable for language model reasoning.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の多段階推論能力を強化するための説得力のある方法となっている。
しかし、一般的なRLパラダイムは相変わらず粗末な結果に基づく報酬と限定的な探索に頼っており、LLMを反復的および準最適推論パターンへと駆り立てることが多い。
本稿では, LLM推論のための探索設計の中心的課題について考察し, MERCI (Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards) を導入する。
カウントベースの探索のアイデアに基づいて、MERCIは軽量のコイン・フリップ・ネットワーク(CFN)を活用して、疑似カウントを推定し、推論軌跡に対するさらなる認識の不確実性を推定し、タスク報酬から学習信号を保存しながら、新規性を評価する本質的な報酬に変換する。
MERCIをグループ相対政策最適化(GRPO)のような先進的なRLフレームワークに統合します。
複雑な推論ベンチマークの実験では、MERCIはよりリッチで多様な思考の連鎖を奨励し、強力なベースラインよりもパフォーマンスを著しく改善し、より優れたソリューションを見つけるためのローカルルーチンを回避している。
目的とする本質的なモチベーションは,言語モデル推論において信頼性の高い探索を可能にすることを示唆している。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。