論文の概要: Multi-task Code LLMs: Data Mix or Model Merge?
- arxiv url: http://arxiv.org/abs/2601.21115v1
- Date: Wed, 28 Jan 2026 23:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.475904
- Title: Multi-task Code LLMs: Data Mix or Model Merge?
- Title(参考訳): マルチタスクコードLLM: データミックスかモデルマージか?
- Authors: Mingzhi Zhu, Boris Sobolev, Rahul Krishna, Raju Pavuluri, Stacy Patterson, Michele Merler,
- Abstract要約: 我々は、データミキシングとモデルマージという、小型でマルチタスクなLLMを作成するための2つのアプローチを比較した。
我々は,HumanEval,MBPP,CodeXGlueのベンチマークを評価した結果,モデルマージが大規模で最高の総合的な性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 5.741318641887549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research advocates deploying smaller, specialized code LLMs in agentic frameworks alongside frontier models, sparking interest in efficient strategies for multi-task learning that balance performance, constraints, and costs. We compare two approaches for creating small, multi-task code LLMs: data mixing versus model merging. We conduct extensive experiments across two model families (Qwen Coder and DeepSeek Coder) at two scales (2B and 7B parameters), fine-tuning them for code generation and code summarization tasks. Our evaluation on HumanEval, MBPP, and CodeXGlue benchmarks reveals that model merging achieves the best overall performance at larger scale across model families, retaining 96% of specialized model performance on code generation tasks while maintaining summarization capabilities. Notably, merged models can even surpass individually fine-tuned models, with our best configuration of Qwen Coder 2.5 7B model achieving 92.7% Pass@1 on HumanEval compared to 90.9% for its task-specific fine-tuned equivalent. At a smaller scale we find instead data mixing to be a preferred strategy. We further introduce a weight analysis technique to understand how different tasks affect model parameters and their implications for merging strategies. The results suggest that careful merging and mixing strategies can effectively combine task-specific capabilities without significant performance degradation, making them ideal for resource-constrained deployment scenarios.
- Abstract(参考訳): 最近の研究は、フェデラモデルと並行してエージェントフレームワークに、より小型で特殊なコードLLMをデプロイすることを提唱し、パフォーマンス、制約、コストのバランスをとるマルチタスク学習のための効率的な戦略への関心を喚起している。
我々は、データミキシングとモデルマージという、小型でマルチタスクなLLMを作成するための2つのアプローチを比較した。
2つのモデルファミリ(Qwen Coder と DeepSeek Coder)を2つのスケール(2B と 7B のパラメータ)で広範な実験を行い、それらをコード生成やコード要約タスクのために微調整します。
我々は,HumanEval,MBPP,CodeXGlueのベンチマークから,モデルマージがモデルファミリ全体において最高の総合的なパフォーマンスを達成し,コード生成タスクにおける特殊モデル性能の96%を維持しながら,要約能力を維持していることを明らかにした。
Qwen Coder 2.5 7Bモデルでは、タスク固有の微調整モデルでは90.9%に対して、HumanEvalでは92.7%のPass@1を実現しています。
より小さなスケールでは、データミキシングが望ましい戦略だと考えています。
さらに,異なるタスクがモデルパラメータにどう影響するか,およびマージ戦略にどのような影響を及ぼすかを理解するために,重み解析手法を導入する。
その結果、注意深いマージと混合戦略は、大幅なパフォーマンス劣化を伴わずにタスク固有の機能を効果的に組み合わせ、リソース制約のあるデプロイメントシナリオに最適であることが示唆された。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [25.333088749417414]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。