論文の概要: M2A: Synergizing Mathematical and Agentic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.09879v1
- Date: Mon, 11 May 2026 02:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.470624
- Title: M2A: Synergizing Mathematical and Agentic Reasoning in Large Language Models
- Title(参考訳): M2A:大規模言語モデルにおける数学的・エージェント推論の相乗化
- Authors: Junjian Wang, Xin Zhou, Qiran Xu, Kun Zhan,
- Abstract要約: モデルマージによる数学的およびエージェント的推論を相乗化する新しいパラダイムであるM2Aを提案する。
M2Aはパラメータ空間内で直接動作し、エージェントの振る舞いに不可欠な特徴部分空間を識別し、数学的推論タスクベクトルをヌル空間にのみマージする。
SFT や RL とは異なり、M2A は追加の勾配更新を必要としない。
- 参考スコア(独自算出の注目度): 9.712139528293946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning has become a central capability of large language models (LLMs), the reasoning patterns required for different scenarios are often misaligned. Mathematical reasoning typically relies on intrinsic logic to solve closed-world problems in a single response, whereas agentic reasoning requires not only internal reasoning but also multi-turn interaction with external environments, interleaving thought and action. This misalignment prevents mathematical and agentic reasoning from effectively benefiting from each other, often yielding unstable reasoning behavior and only limited performance gains under multi-task learning. In this paper, we propose M2A, a novel paradigm that synergizes mathematical and agentic reasoning via model merging. To avoid overfitting to superficial reasoning patterns under joint training, M2A operates directly in parameter space: it identifies the feature subspace critical for agent behavior, and merges the mathematical reasoning task vector only along its null space, thereby injecting reasoning capability along directions that do not perturb agent behavior. Unlike SFT or RL, M2A requires no additional gradient-update and exposes the merging coefficient as a simple knob for controlling reasoning length. Experiments in a challenging real-world coding agent setting show that our method effectively extends agentic reasoning depth and delivers substantial performance improvements. Applied to a fine-tuned Qwen3-8B, M2A improves its SWE-Bench Verified resolved rate from 44.0% to 51.2% without retraining the model. Code is available at https://github.com/laplucky/M2A.git.
- Abstract(参考訳): 推論は大規模言語モデル(LLM)の中心的な機能となっているが、様々なシナリオに必要な推論パターンは、しばしば不一致である。
数学的推論は、一つの反応において閉世界問題を解決するために本質的に論理に依存するのに対し、エージェント推論は内部推論だけでなく、外部環境とのマルチターン相互作用、思考と行動のインターリービングも必要である。
このミスアライメントは、数学的およびエージェント的推論が互いに効果的に利益を得るのを防ぎ、しばしば不安定な推論動作をもたらし、マルチタスク学習では限られた性能向上しか得られない。
本稿では,モデルマージによる数学的およびエージェント的推論を相乗化する新しいパラダイムであるM2Aを提案する。
共同トレーニング中の表面的推論パターンへの過度な適合を避けるため、M2Aはパラメータ空間で直接動作し、エージェントの振る舞いに不可欠な特徴部分空間を識別し、数学的推論タスクベクトルをヌル空間に沿ってのみマージすることにより、エージェントの振る舞いを乱さない方向に沿って推論能力を注入する。
SFTやRLとは異なり、M2Aは追加の勾配更新を必要とせず、マージ係数を推論長を制御する単純なノブとして公開する。
本手法はエージェント推論の深度を効果的に拡張し,大幅な性能向上を実現する。
微調整のQwen3-8Bに応用されたM2Aは、モデルを再訓練することなく、SWE-Benchの解決レートを44.0%から51.2%に改善した。
コードはhttps://github.com/laplucky/M2A.git.comで入手できる。
関連論文リスト
- MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control [36.06412693943508]
適応型推論に基づくマルチモーダル埋め込みフレームワークであるMMEmb-R1を提案する。
我々は、潜在変数としての推論を定式化し、クエリターゲットアライメントに有用な推論経路を特定するためにペア認識推論選択を導入する。
MMEB-V2ベンチマーク実験により,本モデルでは4Bパラメータのみを用いて71.2のスコアを達成し,推論のオーバーヘッドと推論遅延を大幅に低減し,新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2026-04-07T17:55:17Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning [34.912727372324625]
Think-with-Meはテスト時のインタラクティブな推論パラダイムであり、推論プロセスに外部からのフィードバックの介入を導入する。
Think-with-Meは外部からのフィードバックのポイントでの推論を一時停止し、正確さを維持しながら冗長性を減らすために適応的に推論を拡張または終了する。
実験の結果,Think-with-Meは限られたコンテキストウィンドウ下での精度と推論長のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2026-01-16T13:00:42Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。