Fugu-MT 論文翻訳(概要): MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models

論文の概要: MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models

arxiv url: http://arxiv.org/abs/2506.18485v1
Date: Mon, 23 Jun 2025 10:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.936631
Title: MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models
Title（参考訳）: 大規模共振モデルのためのモチベーション強化ファインタニング
Authors: Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao,
Abstract要約: MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。 MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。 Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
参考スコア（独自算出の注目度）: 95.6332110724999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful learn-to-reason paradigm for Large Language Models (LLMs) to tackle complex reasoning tasks. However, existing RLVR methods overlook one of the most distinctive capabilities of LLMs, their in-context learning ability, as prominently demonstrated by the success of Chain-of-Thought (CoT) prompting. This motivates us to explore how reinforcement learning can be effectively combined with in-context learning to better improve the reasoning capabilities of LLMs. In this paper, we introduce Motivation-enhanced Reinforcement Finetuning} (MeRF), an intuitive yet effective method enhancing reinforcement learning of LLMs by involving ``telling LLMs the rules of the game''. Specifically, MeRF directly injects the reward specification into the prompt, which serves as an in-context motivation for model to improve its responses with awareness of the optimization objective. This simple modification leverages the in-context learning ability of LLMs aligning generation with optimization, thereby incentivizing the model to generate desired outputs from both inner motivation and external reward. Empirical evaluations on the Knights and Knaves~(K&K) logic puzzle reasoning benchmark demonstrate that \texttt{MeRF} achieves substantial performance gains over baselines. Moreover, ablation studies show that performance improves with greater consistency between the in-context motivation and the external reward function, while the model also demonstrates an ability to adapt to misleading motivations through reinforcement learning.
Abstract（参考訳）: Reinforcement Learning with Verifiable Rewards (RLVR) は、複雑な推論タスクに取り組むために、LLM(Large Language Models)のための強力な学習・推論パラダイムとして登場した。しかし、既存のRLVR法は、その文脈内学習能力であるLLMの最も特徴的な能力の1つを見落としており、CoT(Chain-of-Thought)の成功によって顕著に示されている。これにより、LLMの推論能力を改善するために、強化学習とコンテキスト内学習を効果的に組み合わせる方法について検討する。本稿では,「ゲームルールを LLM に組み込む」ことで LLM の強化学習を強化する直感的かつ効果的な方法である Motivation-enhanced Reinforcement Finetuning} (MeRF) を紹介する。具体的には、MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。この簡単な修正は、LLMの文脈内学習能力を利用して、生成と最適化を一致させ、モデルにインセンティブを与えて、インナーモチベーションと外部報酬の両方から所望の出力を生成する。 Knights and Knaves〜(K&K)論理パズル推論ベンチマークに関する実証的な評価は、‘texttt{MeRF} がベースラインよりもかなりの性能向上を達成することを示した。さらに、アブレーション研究により、文脈内モチベーションと外部報酬関数との整合性が向上する一方、モデルはまた、強化学習によって誤解を招くモチベーションに適応する能力を示す。

関連論文リスト

No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文参考訳（メタデータ） (2025-06-20T17:59:52Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文参考訳（メタデータ） (2025-06-10T12:40:39Z)
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿では、FANformerを導入し、FAN(Fourier Analysis Network)をアテンション機構に適応させ、効率的な周期性モデリングを実現する。モデルサイズのスケールアップやトークンのトレーニングでは,FANformerがTransformerより一貫して優れています。トレーニング済みのFANformer-1Bは、同様のモデルパラメータやトレーニングトークンを持つオープンソースのLLMと比較して、ダウンストリームタスクが大幅に改善されている。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文参考訳（メタデータ） (2024-05-06T10:42:28Z)
Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection [24.435121488662897]
反射フィードバックによる強化学習(RLRF)という新しい枠組みを提案する。 RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。ジャスト・エバル, ファクタリティ, 数学的推論による実験は, RLRFの有効性と変換ポテンシャルを実証した。
論文参考訳（メタデータ） (2024-03-21T08:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。