論文の概要: Reasoning Pattern Alignment Merging for Adaptive Reasoning
- arxiv url: http://arxiv.org/abs/2601.03506v1
- Date: Wed, 07 Jan 2026 01:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.108812
- Title: Reasoning Pattern Alignment Merging for Adaptive Reasoning
- Title(参考訳): 適応型推論のための推論パターンアライメントマージ
- Authors: Zhaofeng Zhong, Wei Yuan, Tong Chen, Xiangyu Zhao, Quoc Viet Hung Nguyen, Hongzhi Yin,
- Abstract要約: Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
- 参考スコア(独自算出の注目度): 48.347817456299104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent large reasoning models (LRMs) have made substantial progress in complex reasoning tasks, yet they often generate lengthy reasoning paths for every query, incurring unnecessary computation and latency. Existing speed-up approaches typically rely on retraining the model or designing sophisticated prompting, which are either prohibitively expensive or highly sensitive to the input and prompt formulation. In this work, we study model merging as a lightweight alternative for efficient reasoning: by combining a long chain-of-thought (Long-CoT) reasoning model with a Short-CoT instruction model, we obtain an adaptive reasoner without training from scratch or requiring large-scale additional data. Building on this idea, we propose Reasoning Pattern Alignment Merging (RPAM), a layer-wise model merging framework based on feature alignment to facilitate query-adaptive reasoning. RPAM first constructs a small pattern-labeled calibration set that assigns each query an appropriate reasoning pattern. It then optimizes layer-wise merging coefficients by aligning the merged model's intermediate representations with those of the selected model, while a contrastive objective explicitly pushes them away from the non-selected model. Experiments on seven widely used reasoning benchmarks show that RPAM substantially reduces inference cost while maintaining strong performance. Upon article acceptance, we will provide open-source code to reproduce experiments for RPAM.
- Abstract(参考訳): 最近の大きな推論モデル(LRM)は複雑な推論タスクをかなり進歩させてきたが、クエリ毎に長い推論パスを生成し、不要な計算と遅延を発生させることが多い。
既存のスピードアップアプローチは、通常、モデルの再トレーニングや洗練されたプロンプトの設計に依存しており、これは入力とプロンプトの形式化に対して、非常に高価または非常に敏感である。
そこで本研究では,Long-CoT推論モデルとShort-CoT命令モデルを組み合わせることで,スクラッチからのトレーニングや大規模な追加データを必要とすることなく,適応型推論モデルを得る。
このアイデアに基づいて,階層型モデルマージフレームワークであるReasoning Pattern Alignment Merging (RPAM)を提案する。
RPAMはまず、各クエリに適切な推論パターンを割り当てる小さなパターンラベルのキャリブレーションセットを構築する。
次に、マージされたモデルの中間表現と選択されたモデルの表現とを整列させることにより、レイヤワイズマージ係数を最適化する。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文が受理されると、RPAMの実験を再現するオープンソースコードを提供する。
関連論文リスト
- Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Tiny-R1V: Lightweight Multimodal Unified Reasoning Model via Model Merging [34.0419616643477]
Tiny-R1Vは2段階最適化により高速な推論と高精度を実現する軽量3Bモデルである。
最初の段階では、Tiny-R1Vは、新しい強化学習法であるLength-Informed Relative Policy Optimization (LIPO)を導入した。
第2段階では、トレーニング不要なモデルマージ手法である適応モデルマージ(AMM)を提案する。
論文 参考訳(メタデータ) (2025-10-10T04:14:57Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。
我々はCAR(Adaptive Reasoning)を提案する。
CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文 参考訳(メタデータ) (2025-05-21T06:20:17Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。