論文の概要: MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
- arxiv url: http://arxiv.org/abs/2507.02851v1
- Date: Thu, 03 Jul 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.870758
- Title: MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
- Title(参考訳): MOTIF:LLMにおける強化ファインチューニングによるモジュール思考
- Authors: Purbesh Mitra, Sennur Ulukus,
- Abstract要約: 複数ラウンドで思考トークンを生成するためのRLトレーニング手法であるReinforcement Finetuningによるモジュール思考を提案する。
GSM8Kデータセット上のオープンソースのQwen2.5-3B-インストラクションをパラメータ効率の良い微調整により訓練し,MATH500およびAIME2024ベンチマークでその精度を検証した。
- 参考スコア(独自算出の注目度): 35.16231062731263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in the reasoning capabilities of large language models (LLMs) show that employing group relative policy optimization (GRPO) algorithm for reinforcement learning (RL) training allows the models to use more thinking/reasoning tokens for generating better responses. However, LLMs can generate only a finite amount of tokens while maintaining attention to the previously generated tokens. This limit, also known as the context size of an LLM, is a bottleneck in LLM reasoning with arbitrarily large number of tokens. To think beyond the limit of context size, an LLM must employ a modular thinking strategy to reason over multiple rounds. In this work, we propose $\textbf{MOTIF: Modular Thinking via Reinforcement Finetuning}$ -- an RL training method for generating thinking tokens in multiple rounds, effectively allowing the model to think with additional context size. We trained the open-source model Qwen2.5-3B-Instruct on GSM8K dataset via parameter efficient fine-tuning and tested its accuracy on MATH500 and AIME2024 benchmarks. Our experiments show 3.8\% and 3.3\% improvements over vanilla GRPO based training in the respective benchmarks. Furthermore, this improvement was achieved with only 15\% of samples, thus demonstrating sample efficiency of MOTIF. Our code and models are available at https://github.com/purbeshmitra/MOTIF and https://huggingface.co/purbeshmitra/MOTIF, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の最近の進歩は、強化学習(RL)トレーニングにグループ相対ポリシー最適化(GRPO)アルゴリズムを用いることで、より優れた応答を生成するためにより思考/推論トークンを使用することができることを示している。
しかし、LCMは、以前に生成されたトークンに注意を払いながら、限られた量のトークンしか生成できない。
この制限は LLM のコンテキストサイズとしても知られ、任意に多数のトークンを推論する LLM のボトルネックである。
コンテキストサイズの範囲を超えて考えるには、LLMは複数のラウンドを推論するためにモジュラー思考戦略を使わなければならない。
本稿では,複数のラウンドで思考トークンを生成するためのRLトレーニング手法である$\textbf{MOTIF: Modular Thinking via Reinforcement Finetuning}$を提案する。
GSM8Kデータセット上のオープンソースのQwen2.5-3B-インストラクションをパラメータ効率の良い微調整により訓練し,MATH500およびAIME2024ベンチマークでその精度を検証した。
実験では、各ベンチマークでバニラGRPOベースのトレーニングよりも3.8\%と3.3\%改善した。
さらに, この改良は試料の15倍率で達成され, MOTIFの試料効率を実証した。
私たちのコードとモデルは、それぞれhttps://github.com/purbeshmitra/MOTIFとhttps://huggingface.co/purbeshmitra/MOTIFで利用可能です。
関連論文リスト
- Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。