論文の概要: rSIM: Incentivizing Reasoning Capabilities of LLMs via Reinforced Strategy Injection
- arxiv url: http://arxiv.org/abs/2512.08300v1
- Date: Tue, 09 Dec 2025 06:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.849689
- Title: rSIM: Incentivizing Reasoning Capabilities of LLMs via Reinforced Strategy Injection
- Title(参考訳): rSIM:強化戦略注入によるLLMの推論能力のインセンティブ化
- Authors: Sijia Chen, Baochun Li, Di Niu,
- Abstract要約: 大規模言語モデル(LLM)は強化学習(RL)を通して後訓練され、推論言語モデル(RLM)へと進化する。
本稿では, 小型プランナを用いることで, LLM を RLM にすることができる新規な強化戦略注入機構 (rSIM) を提案する。
実験結果から、rSIMによりQwen2.5-0.5BはRLMとなり、Qwen2.5-14Bより大幅に優れていた。
- 参考スコア(独自算出の注目度): 49.74493901036598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are post-trained through reinforcement learning (RL) to evolve into Reasoning Language Models (RLMs), where the hallmark of this advanced reasoning is ``aha'' moments when they start to perform strategies, such as self-reflection and deep thinking, within chain of thoughts (CoTs). Motivated by this, this paper proposes a novel reinforced strategy injection mechanism (rSIM), that enables any LLM to become an RLM by employing a small planner to guide the LLM's CoT through the adaptive injection of reasoning strategies. To achieve this, the planner (leader agent) is jointly trained with an LLM (follower agent) using multi-agent RL (MARL), based on a leader-follower framework and straightforward rule-based rewards. Experimental results show that rSIM enables Qwen2.5-0.5B to become an RLM and significantly outperform Qwen2.5-14B. Moreover, the planner is generalizable: it only needs to be trained once and can be applied as a plug-in to substantially improve the reasoning capabilities of existing LLMs. In addition, the planner supports continual learning across various tasks, allowing its planning abilities to gradually improve and generalize to a wider range of problems.
- Abstract(参考訳): 大規模言語モデル (LLM) は強化学習 (RL) を通じて学習後、推論言語モデル (RLM) へと進化する。
そこで本研究では, LLM を小型プランナーで誘導し, 推論戦略の適応的注入により LLM の CoT を誘導することにより, 任意の LLM を RLM にすることができる新しい強化戦略注入機構 (rSIM) を提案する。
これを実現するために、プランナー(リーダーエージェント)は、リーダー・フォロワー・フレームワークと簡単なルールベースの報酬に基づいて、マルチエージェントRL(MARL)を用いてLDM(フォロワーエージェント)と共同で訓練される。
実験結果から、rSIMによりQwen2.5-0.5BはRLMとなり、Qwen2.5-14Bより大幅に優れていた。
さらに、プランナーは一般化可能で、一度しか訓練する必要がなく、既存のLCMの推論能力を大幅に改善するためにプラグインとして適用できる。
さらに、プランナーは様々なタスクにわたる継続的な学習をサポートし、計画能力は徐々に改善され、幅広い問題に一般化される。
関連論文リスト
- Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。
本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。
次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文 参考訳(メタデータ) (2025-11-18T13:03:15Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。