論文の概要: Multi-task Code LLMs: Data Mix or Model Merge?
- arxiv url: http://arxiv.org/abs/2601.21115v1
- Date: Wed, 28 Jan 2026 23:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.475904
- Title: Multi-task Code LLMs: Data Mix or Model Merge?
- Title(参考訳): マルチタスクコードLLM: データミックスかモデルマージか?
- Authors: Mingzhi Zhu, Boris Sobolev, Rahul Krishna, Raju Pavuluri, Stacy Patterson, Michele Merler,
- Abstract要約: 我々は、データミキシングとモデルマージという、小型でマルチタスクなLLMを作成するための2つのアプローチを比較した。
我々は,HumanEval,MBPP,CodeXGlueのベンチマークを評価した結果,モデルマージが大規模で最高の総合的な性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 5.741318641887549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research advocates deploying smaller, specialized code LLMs in agentic frameworks alongside frontier models, sparking interest in efficient strategies for multi-task learning that balance performance, constraints, and costs. We compare two approaches for creating small, multi-task code LLMs: data mixing versus model merging. We conduct extensive experiments across two model families (Qwen Coder and DeepSeek Coder) at two scales (2B and 7B parameters), fine-tuning them for code generation and code summarization tasks. Our evaluation on HumanEval, MBPP, and CodeXGlue benchmarks reveals that model merging achieves the best overall performance at larger scale across model families, retaining 96% of specialized model performance on code generation tasks while maintaining summarization capabilities. Notably, merged models can even surpass individually fine-tuned models, with our best configuration of Qwen Coder 2.5 7B model achieving 92.7% Pass@1 on HumanEval compared to 90.9% for its task-specific fine-tuned equivalent. At a smaller scale we find instead data mixing to be a preferred strategy. We further introduce a weight analysis technique to understand how different tasks affect model parameters and their implications for merging strategies. The results suggest that careful merging and mixing strategies can effectively combine task-specific capabilities without significant performance degradation, making them ideal for resource-constrained deployment scenarios.
- Abstract(参考訳): 最近の研究は、フェデラモデルと並行してエージェントフレームワークに、より小型で特殊なコードLLMをデプロイすることを提唱し、パフォーマンス、制約、コストのバランスをとるマルチタスク学習のための効率的な戦略への関心を喚起している。
我々は、データミキシングとモデルマージという、小型でマルチタスクなLLMを作成するための2つのアプローチを比較した。
2つのモデルファミリ(Qwen Coder と DeepSeek Coder)を2つのスケール(2B と 7B のパラメータ)で広範な実験を行い、それらをコード生成やコード要約タスクのために微調整します。
我々は,HumanEval,MBPP,CodeXGlueのベンチマークから,モデルマージがモデルファミリ全体において最高の総合的なパフォーマンスを達成し,コード生成タスクにおける特殊モデル性能の96%を維持しながら,要約能力を維持していることを明らかにした。
Qwen Coder 2.5 7Bモデルでは、タスク固有の微調整モデルでは90.9%に対して、HumanEvalでは92.7%のPass@1を実現しています。
より小さなスケールでは、データミキシングが望ましい戦略だと考えています。
さらに,異なるタスクがモデルパラメータにどう影響するか,およびマージ戦略にどのような影響を及ぼすかを理解するために,重み解析手法を導入する。
その結果、注意深いマージと混合戦略は、大幅なパフォーマンス劣化を伴わずにタスク固有の機能を効果的に組み合わせ、リソース制約のあるデプロイメントシナリオに最適であることが示唆された。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [25.333088749417414]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - 1bit-Merging: Dynamic Quantized Merging for Large Language Models [19.365673988498028]
texttt1bit-Mergingは,タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し,性能と記憶効率のバランスをとる新しいフレームワークである。
1bit-Mergingは既存の手法と同等あるいは優れた性能を示しながら、ストレージ要件を著しく低減する。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。
機能を効率的に補完する1つの方法は、モデルマージである。
本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T12:47:25Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。