論文の概要: Training-free LLM Merging for Multi-task Learning
- arxiv url: http://arxiv.org/abs/2506.12379v1
- Date: Sat, 14 Jun 2025 07:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.999327
- Title: Training-free LLM Merging for Multi-task Learning
- Title(参考訳): マルチタスク学習のための学習不要LLMマージ
- Authors: Zichuan Fu, Xian Wu, Yejing Wang, Wanyu Wang, Shanshan Ye, Hongzhi Yin, Yi Chang, Yefeng Zheng, Xiangyu Zhao,
- Abstract要約: Hi-Mergingは、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要の方法である。
中国語と英語の両方における複数選択および質問応答タスクの実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
- 参考スコア(独自算出の注目度): 74.93025750111019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities across diverse natural language processing (NLP) tasks. The release of open-source LLMs like LLaMA and Qwen has triggered the development of numerous fine-tuned models tailored for various tasks and languages. In this paper, we explore an important question: is it possible to combine these specialized models to create a unified model with multi-task capabilities. We introduces Hierarchical Iterative Merging (Hi-Merging), a training-free method for unifying different specialized LLMs into a single model. Specifically, Hi-Merging employs model-wise and layer-wise pruning and scaling, guided by contribution analysis, to mitigate parameter conflicts. Extensive experiments on multiple-choice and question-answering tasks in both Chinese and English validate Hi-Merging's ability for multi-task learning. The results demonstrate that Hi-Merging consistently outperforms existing merging techniques and surpasses the performance of models fine-tuned on combined datasets in most scenarios. Code is available at: https://github.com/Applied-Machine-Learning-Lab/Hi-Merging.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクにまたがる例外的な機能を示している。
LLaMAやQwenのようなオープンソースのLLMのリリースは、様々なタスクや言語用に調整された多数の微調整モデルの開発をきっかけにしている。
本稿では,これらの特化モデルを組み合わせて,マルチタスク機能を備えた統一モデルを構築することが可能か,という重要な課題について考察する。
我々は、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要な手法である階層的反復統合(Hi-Merging)を紹介した。
特にHi-Mergingでは、パラメータの衝突を軽減するために、コントリビューション分析によって導かれるモデルワイドおよびレイヤワイドプルーニングとスケーリングを採用している。
中国語と英語の両方における複数選択および質問応答タスクに関する広範囲な実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
その結果、Hi-Mergingは既存のマージテクニックを一貫して上回り、ほとんどのシナリオで組み合わせたデータセットで微調整されたモデルのパフォーマンスを上回ります。
コードは、https://github.com/Applied-Machine-Learning-Lab/Hi-Merging.comで入手できる。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。