論文の概要: RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior
- arxiv url: http://arxiv.org/abs/2508.03140v1
- Date: Tue, 05 Aug 2025 06:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.818273
- Title: RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior
- Title(参考訳): RCP-Merging:Reasoning Capabilityを前提としたロングチェーン・オブ・ワットモデルとドメイン特化モデルの統合
- Authors: Junyao Yang, Jianwei Wang, Huiping Zhuang, Cen Chen, Ziqian Zeng,
- Abstract要約: ロングチェーン・オブ・シント(CoT)機能を持つ大規模言語モデル(LLM)は、推論モデルと呼ばれ、より複雑な問題解決能力を示している。
RCP-Merging: Reasoning Capability を優先として,Long Chain-of-Thought Models と Domain-Specific Models を併用する。
その結果、RCP-Mergingはドメイン固有の推論モデルとうまく融合し、最先端の手法よりもドメインタスクのパフォーマンスを9.5%向上し、9.2%向上した。
- 参考スコア(独自算出の注目度): 18.699960005016433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) with long chain-of-thought (CoT) capability, termed Reasoning Models, demonstrate superior intricate problem-solving abilities through multi-step long CoT reasoning. To create a dual-capability model with long CoT capability and domain-specific knowledge without substantial computational and data costs, model merging emerges as a highly resource-efficient method. However, significant challenges lie in merging domain-specific LLMs with long CoT ones since nowadays merging methods suffer from reasoning capability degradation, even gibberish output and output collapse. To overcome this, we introduce RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior, a novel merging framework designed to integrate domain-specific LLMs with long CoT capability, meanwhile maintaining model performance in the original domain. Treating reasoning model weights as foundational prior, our method utilizes a reasoning capability indicator to preserve core long CoT capability model weights while selectively merging essential domain-specific weights. We conducted extensive experiments on Qwen2.5-7B, Llama3.1-8B, and Qwen2.5-1.5B models in BioMedicine and Finance domains. Our results show that RCP-Merging successfully merges a reasoning model with domain-specific ones, improving domain task performance by 9.5% and 9.2% over state-of-the-art methods, without significantly harming the original long CoT reasoning capability.
- Abstract(参考訳): ロングチェーン・オブ・シント(CoT)機能を備えた大規模言語モデル(LLM)は、マルチステップの長いCoT推論を通じて、複雑な問題解決能力を示す。
CoT能力とドメイン固有の知識の長いデュアルキャパビリティモデルを作成するために、相当な計算とデータコストを伴わずに、モデルマージを高資源効率の手法として実現する。
しかし、近年の合併法は推論能力の低下、さらにはギブビッシュ出力や出力崩壊に悩まされているため、ドメイン固有のLLMと長いCoTメソッドの合併には大きな課題がある。
ドメイン固有のLLMと長いCoT機能を統合するために設計された新しい統合フレームワークであるReasoning Capability as Priorを考慮し、ドメイン特化モデルとドメイン特化モデルを組み合わせる。
提案手法では, 基本モデル重みを基礎として, コア長CoT能力モデルの重みを保ちながら, 基本ドメイン固有重みを選択的にマージする推算能力インジケータを用いる。
バイオメディジンおよびファイナンス領域におけるQwen2.5-7B,Llama3.1-8B,Qwen2.5-1.5Bモデルについて広範な実験を行った。
以上の結果から,RCP-Mergingはドメイン固有の推論モデルとのマージに成功し,従来のCoT推論能力を著しく損なうことなく,ドメインタスクのパフォーマンスを9.5%,9.2%向上させることができた。
関連論文リスト
- Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - Synergistic Weak-Strong Collaboration by Aligning Preferences [53.47675666475273]
現在のLarge Language Models (LLMs) は、プロプライエタリな知識やドメイン固有の知識を必要とする特別なタスクに苦戦する一般的な推論において優れている。
本稿では、特殊な弱いモデルと一般的な強いモデルとを組み合わせた協調的なフレームワークを提案する。
相補的な強みを活用することで、コラボレーションが各モデルを単独で著しく上回っていることが分かりました。
論文 参考訳(メタデータ) (2025-04-21T15:57:33Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - MCC-KD: Multi-CoT Consistent Knowledge Distillation [39.327560600207626]
そこで我々は,MCC-KD (Multi-CoT Consistent Knowledge Distillation) を提案する。
MCC-KDでは、各質問に対して複数の合理性を生成し、対応する予測の一貫性を強制する。
異なるモデルアーキテクチャと様々なモデルスケールを用いたMCC-KDの有効性について検討する。
論文 参考訳(メタデータ) (2023-10-23T09:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。