Fugu-MT 論文翻訳(概要): Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

論文の概要: Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

arxiv url: http://arxiv.org/abs/2408.07666v4
Date: Thu, 5 Sep 2024 14:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 01:34:07.039576
Title: Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
Title（参考訳）: LLM, MLLM, その他におけるモデルマージ: 方法論, 理論, 応用, 機会
Authors: Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao,
Abstract要約: モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
参考スコア（独自算出の注目度）: 89.40778301238642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging is an efficient empowerment technique in the machine learning community that does not require the collection of raw training data and does not require expensive computation. As model merging becomes increasingly prevalent across various fields, it is crucial to understand the available model merging techniques comprehensively. However, there is a significant gap in the literature regarding a systematic and thorough review of these techniques. This survey provides a comprehensive overview of model merging methods and theories, their applications in various domains and settings, and future research directions. Specifically, we first propose a new taxonomic approach that exhaustively discusses existing model merging methods. Secondly, we discuss the application of model merging techniques in large language models, multimodal large language models, and 10+ machine learning subfields, including continual learning, multi-task learning, few-shot learning, etc. Finally, we highlight the remaining challenges of model merging and discuss future research directions. A comprehensive list of papers about model merging is available at \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}.
Abstract（参考訳）: モデルマージは、生のトレーニングデータの収集を必要とせず、高価な計算を必要としない、機械学習コミュニティの効率的なエンパワーメント技術である。モデルマージが様々な分野で普及するにつれて、利用可能なモデルマージテクニックを包括的に理解することが不可欠である。しかし、これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。本調査では, モデルマージ手法と理論, 各種領域および環境への応用, 今後の研究方向性について概説する。具体的には、まず、既存のモデルマージ手法を徹底的に議論する新しい分類学的アプローチを提案する。次に,大規模言語モデル,マルチモーダルな大規模言語モデル,連続学習,マルチタスク学習,少数ショット学習などを含む10以上の機械学習サブフィールドにおけるモデルマージ手法の適用について論じる。最後に、モデルマージの残りの課題を強調し、今後の研究方向性について議論する。モデルマージに関する包括的な論文のリストは、 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} で見ることができる。

関連論文リスト

A Comprehensive Survey on Continual Learning in Generative Models [35.76314482046672]
本稿では,主流生成モデルに対する連続学習手法の包括的調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。 2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文参考訳（メタデータ） (2025-05-16T04:02:55Z)
From Task-Specific Models to Unified Systems: A Review of Model Merging Approaches [13.778158813149833]
本稿では、モデルマージ手法の新たな分類法を確立し、異なるアプローチを体系的に比較し、重要な展開の概要を提供する。この分野での急速な進歩にもかかわらず、最近の進歩と今後の方向性を予測する包括的な分類学と調査はいまだに欠落している。
論文参考訳（メタデータ） (2025-03-12T02:17:31Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文参考訳（メタデータ） (2024-09-27T16:31:31Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
Deep Model Fusion: A Survey [37.39100741978586]
Deep Model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のモデルにマージする、新たなテクニックである。高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
論文参考訳（メタデータ） (2023-09-27T14:40:12Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文参考訳（メタデータ） (2023-06-16T08:13:41Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文参考訳（メタデータ） (2020-08-11T08:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。