Fugu-MT 論文翻訳(概要): MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

論文の概要: MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

arxiv url: http://arxiv.org/abs/2507.02851v1
Date: Thu, 03 Jul 2025 17:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:16.870758
Title: MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
Title（参考訳）: MOTIF:LLMにおける強化ファインチューニングによるモジュール思考
Authors: Purbesh Mitra, Sennur Ulukus,
Abstract要約: 複数ラウンドで思考トークンを生成するためのRLトレーニング手法であるReinforcement Finetuningによるモジュール思考を提案する。 GSM8Kデータセット上のオープンソースのQwen2.5-3B-インストラクションをパラメータ効率の良い微調整により訓練し,MATH500およびAIME2024ベンチマークでその精度を検証した。
参考スコア（独自算出の注目度）: 35.16231062731263
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in the reasoning capabilities of large language models (LLMs) show that employing group relative policy optimization (GRPO) algorithm for reinforcement learning (RL) training allows the models to use more thinking/reasoning tokens for generating better responses. However, LLMs can generate only a finite amount of tokens while maintaining attention to the previously generated tokens. This limit, also known as the context size of an LLM, is a bottleneck in LLM reasoning with arbitrarily large number of tokens. To think beyond the limit of context size, an LLM must employ a modular thinking strategy to reason over multiple rounds. In this work, we propose $\textbf{MOTIF: Modular Thinking via Reinforcement Finetuning}$ -- an RL training method for generating thinking tokens in multiple rounds, effectively allowing the model to think with additional context size. We trained the open-source model Qwen2.5-3B-Instruct on GSM8K dataset via parameter efficient fine-tuning and tested its accuracy on MATH500 and AIME2024 benchmarks. Our experiments show 3.8\% and 3.3\% improvements over vanilla GRPO based training in the respective benchmarks. Furthermore, this improvement was achieved with only 15\% of samples, thus demonstrating sample efficiency of MOTIF. Our code and models are available at https://github.com/purbeshmitra/MOTIF and https://huggingface.co/purbeshmitra/MOTIF, respectively.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力の最近の進歩は、強化学習(RL)トレーニングにグループ相対ポリシー最適化(GRPO)アルゴリズムを用いることで、より優れた応答を生成するためにより思考/推論トークンを使用することができることを示している。しかし、LCMは、以前に生成されたトークンに注意を払いながら、限られた量のトークンしか生成できない。この制限は LLM のコンテキストサイズとしても知られ、任意に多数のトークンを推論する LLM のボトルネックである。コンテキストサイズの範囲を超えて考えるには、LLMは複数のラウンドを推論するためにモジュラー思考戦略を使わなければならない。本稿では,複数のラウンドで思考トークンを生成するためのRLトレーニング手法である$\textbf{MOTIF: Modular Thinking via Reinforcement Finetuning}$を提案する。 GSM8Kデータセット上のオープンソースのQwen2.5-3B-インストラクションをパラメータ効率の良い微調整により訓練し,MATH500およびAIME2024ベンチマークでその精度を検証した。実験では、各ベンチマークでバニラGRPOベースのトレーニングよりも3.8\%と3.3\%改善した。さらに, この改良は試料の15倍率で達成され, MOTIFの試料効率を実証した。私たちのコードとモデルは、それぞれhttps://github.com/purbeshmitra/MOTIFとhttps://huggingface.co/purbeshmitra/MOTIFで利用可能です。

関連論文リスト

Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文参考訳（メタデータ） (2025-02-27T14:14:50Z)
Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文参考訳（メタデータ） (2025-02-14T08:23:51Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。 SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文参考訳（メタデータ） (2024-05-18T06:15:52Z)
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。 CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文参考訳（メタデータ） (2023-12-14T13:03:13Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。