Fugu-MT 論文翻訳(概要): MergeBench: A Benchmark for Merging Domain-Specialized LLMs

論文の概要: MergeBench: A Benchmark for Merging Domain-Specialized LLMs

arxiv url: http://arxiv.org/abs/2505.10833v1
Date: Fri, 16 May 2025 04:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:13.978538
Title: MergeBench: A Benchmark for Merging Domain-Specialized LLMs
Title（参考訳）: MergeBench: ドメイン特化LDMのマージベンチマーク
Authors: Yifei He, Siqi Zeng, Yuzheng Hu, Rui Yang, Tong Zhang, Han Zhao,
Abstract要約: モデルマージを大規模に評価するための総合評価スイートであるMergeBenchを紹介する。 MergeBenchは、2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルを構築している。マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
参考スコア（独自算出の注目度）: 19.49737955489798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging provides a scalable alternative to multi-task training by combining specialized finetuned models through parameter arithmetic, enabling efficient deployment without the need for joint training or access to all task data. While recent methods have shown promise, existing evaluations are limited in both model scale and task diversity, leaving open questions about their applicability to large, domain-specialized LLMs. To tackle the challenges, we introduce MergeBench, a comprehensive evaluation suite designed to assess model merging at scale. MergeBench builds on state-of-the-art open-source language models, including Llama and Gemma families at 2B to 9B scales, and covers five key domains: instruction following, mathematics, multilingual understanding, coding and safety. We standardize finetuning and evaluation protocols, and assess eight representative merging methods across multi-task performance, forgetting and runtime efficiency. Based on extensive experiments, we provide practical guidelines for algorithm selection and share insights showing that model merging tends to perform better on stronger base models, with techniques such as merging coefficient tuning and sparsification improving knowledge retention. However, several challenges remain, including the computational cost on large models, the gap for in-domain performance compared to multi-task models, and the underexplored role of model merging in standard LLM training pipelines. We hope MergeBench provides a foundation for future research to advance the understanding and practical application of model merging. We open source our code at \href{https://github.com/uiuctml/MergeBench}{https://github.com/uiuctml/MergeBench}.
Abstract（参考訳）: モデルマージは、パラメータ演算を通じて特別な微調整モデルを組み合わせることで、マルチタスクトレーニングのスケーラブルな代替手段を提供する。近年の手法は将来性を示しているが、既存の評価はモデルスケールとタスクの多様性の両方に限られており、大きなドメイン特化LDMに適用性に関するオープンな疑問を残している。この課題に対処するために、スケールでのモデルマージを評価するために設計された総合的な評価スイートであるMergeBenchを紹介します。 MergeBenchは、2Bから9BのスケールでLlamaやGemmaファミリーを含む最先端のオープンソース言語モデルを構築し、インストラクションフォロー、数学、多言語理解、コーディング、安全性の5つの主要なドメインをカバーする。ファインタニングと評価のプロトコルを標準化し,マルチタスク性能,忘れ,実行効率の面で8つの代表的なマージ手法を評価する。より広範な実験に基づいて,アルゴリズム選択のための実践的ガイドラインを提供し,モデルマージがより強力なベースモデルでより優れた性能を発揮することを示す。しかし、大規模モデルの計算コスト、マルチタスクモデルと比較してドメイン内のパフォーマンスのギャップ、標準LLMトレーニングパイプラインにおけるモデルマージの未検討の役割など、いくつかの課題が残っている。 MergeBenchが将来の研究の基盤を提供し、モデルマージの理解と実践的応用を進めることを願っている。当社のコードは、 \href{https://github.com/uiuctml/MergeBench}{https://github.com/uiuctml/MergeBench}で公開しています。

関連論文リスト

Training-free LLM Merging for Multi-task Learning [74.93025750111019]
Hi-Mergingは、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要の方法である。中国語と英語の両方における複数選択および質問応答タスクの実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
論文参考訳（メタデータ） (2025-06-14T07:21:11Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文参考訳（メタデータ） (2025-03-05T20:09:59Z)
1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文参考訳（メタデータ） (2025-02-15T09:47:50Z)
Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging [30.38047100067552]
推論機能は、大きな言語モデルにとって重要なフロンティアである。機能を効率的に補完する1つの方法は、モデルマージである。本稿では,マージ戦略のきめ細かい探索を可能にする自動モデルマージフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T12:47:25Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (2024-08-14T16:58:48Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。