論文の概要: RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format
- arxiv url: http://arxiv.org/abs/2602.22538v1
- Date: Thu, 26 Feb 2026 02:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.482215
- Title: RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format
- Title(参考訳): RAIN-Merging: 保存された思考形式を持つ大規模推論モデルにおける指示に従うグラディエントフリーな方法
- Authors: Zhehao Huang, Yuhang Liu, Baijiong Lin, Yixin Lou, Zhengbao He, Hanling Tian, Tao Li, Xiaolin Huang,
- Abstract要約: 本稿では,思考形式と推論性能を保ちながら,指示に従う手法であるRAIN-Mergingを紹介する。
4つの命令追従ベンチマークと9つの推論と一般的な機能ベンチマークで、RAIN-Mergingは推論品質を維持しながら、命令の順守を大幅に改善する。
- 参考スコア(独自算出の注目度): 31.495636935767834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) excel at a long chain of reasoning but often fail to faithfully follow instructions regarding output format, constraints, or specific requirements. We investigate whether this gap can be closed by integrating an instruction-tuned model (ITM) into an LRM. Analyzing their differences in parameter space, namely task vectors, we find that their principal subspaces are nearly orthogonal across key modules, suggesting a lightweight merging with minimal interference. However, we also demonstrate that naive merges are fragile because they overlook the output format mismatch between LRMs (with explicit thinking and response segments) and ITMs (answers-only). We introduce RAIN-Merging (Reasoning-Aware Instruction-attention guided Null-space projection Merging), a gradient-free method that integrates instruction following while preserving thinking format and reasoning performance. First, with a small reasoning calibration set, we project the ITM task vector onto the null space of forward features at thinking special tokens, which preserves the LRM's structured reasoning mechanisms. Second, using a small instruction calibration set, we estimate instruction attention to derive module-specific scaling that amplifies instruction-relevant components and suppresses leakage. Across four instruction-following benchmarks and nine reasoning & general capability benchmarks, RAIN-Merging substantially improves instruction adherence while maintaining reasoning quality. The gains are consistent across model scales and architectures, translating to improved performance in agent settings.
- Abstract(参考訳): 大規模な推論モデル(LRM)は長い推論の連鎖で優れているが、出力形式、制約、あるいは特定の要求に関する命令を忠実に従わないことが多い。
命令調整モデル (ITM) を LRM に統合することにより, このギャップを解消できるかどうかを検討する。
パラメータ空間、すなわちタスクベクトルの違いを分析すると、それらの主部分空間は鍵加群間でほぼ直交しており、最小限の干渉を伴う軽量なマージが示唆される。
しかし, LRM と ITM の出力形式ミスマッチ(明示的な思考と応答セグメントを含む)を見落としているため, 単純マージは脆弱であることを示す。
本稿では,思考形式と推論性能を保ちながら指示に従う勾配のない手法であるRAIN-Merging(Reasoning-Aware Instruction-attention guided Null-space projection Merging)を紹介する。
第一に、小さな推論キャリブレーションセットを用いて、特殊トークンを考えて前方特徴のヌル空間にIMMタスクベクトルを投影し、LEMの構造的推論機構を保存する。
第二に、小さな命令校正セットを用いて、命令関連コンポーネントを増幅し、リークを抑制するモジュール固有のスケーリングを導出する命令注意度を推定する。
4つの命令追従ベンチマークと9つの推論と一般的な機能ベンチマークで、RAIN-Mergingは推論品質を維持しながら、命令の順守を大幅に改善する。
ゲインは、モデルスケールとアーキテクチャ間で一貫性があり、エージェント設定のパフォーマンスを改善するために変換される。
関連論文リスト
- Towards Reasoning-Preserving Unlearning in Multimodal Large Language Models [17.184948937224142]
機械学習は、トレーニングされたモデルから要求されたデータを、完全なリトレーニングなしで消去することを目的としている。
中間チェーンのステップは、最終回答が忘れられたとしても、機密情報を漏洩することができる。
本稿では,R-MUSEを提案する。R-MUSEは,内部表現を操り,回答と推論トレースの両方を忘れる学習自由かつ推論時間の介入フレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:45:52Z) - Learning to Ponder: Adaptive Reasoning in Latent Space [2.8835557003761747]
我々は、潜時ステアリングによるインスタンス適応推論計算を割り当てる単一グラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、一致した精度で低いFLOPを提供し、早期出力ベースラインと比較する。
論文 参考訳(メタデータ) (2025-09-29T03:21:42Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。