論文の概要: How to Merge Your Multimodal Models Over Time?
- arxiv url: http://arxiv.org/abs/2412.06712v1
- Date: Mon, 09 Dec 2024 18:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:57.825053
- Title: How to Merge Your Multimodal Models Over Time?
- Title(参考訳): マルチモーダルモデルのマージ方法は?
- Authors: Sebastian Dziadzio, Vishaal Udandarao, Karsten Roth, Ameya Prabhu, Zeynep Akata, Samuel Albanie, Matthias Bethge,
- Abstract要約: 我々は3つの軸にまたがる時間モデルを定義するTIMEという統合フレームワークを提案する。
本稿では,FoMo-in-Fluxベンチマークを用いて,モデルサイズ,計算予算,学習地平線にまたがる時間モデルについて検討する。
- 参考スコア(独自算出の注目度): 73.11304741033761
- License:
- Abstract: Model merging combines multiple expert models - finetuned from a base foundation model on diverse tasks and domains - into a single, more capable model. However, most existing model merging approaches assume that all experts are available simultaneously. In reality, new tasks and domains emerge progressively over time, requiring strategies to integrate the knowledge of expert models as they become available: a process we call temporal model merging. The temporal dimension introduces unique challenges not addressed in prior work, raising new questions such as: when training for a new task, should the expert model start from the merged past experts or from the original base model? Should we merge all models at each time step? Which merging techniques are best suited for temporal merging? Should different strategies be used to initialize the training and deploy the model? To answer these questions, we propose a unified framework called TIME - Temporal Integration of Model Expertise - which defines temporal model merging across three axes: (1) Initialization Phase, (2) Deployment Phase, and (3) Merging Technique. Using TIME, we study temporal model merging across model sizes, compute budgets, and learning horizons on the FoMo-in-Flux benchmark. Our comprehensive suite of experiments across TIME allows us to uncover key insights for temporal model merging, offering a better understanding of current challenges and best practices for effective temporal model merging.
- Abstract(参考訳): モデルマージは、複数のエキスパートモデル(多様なタスクやドメインの基盤モデルから微調整された)を単一の、より有能なモデルに組み合わせます。
しかしながら、既存のモデルマージアプローチのほとんどは、すべての専門家が同時に利用できると仮定しています。
実際、新しいタスクやドメインは時間とともに徐々に出現し、専門家モデルの知識を統合する戦略を必要とします。
新たなタスクのためのトレーニングでは、専門家モデルは過去の専門家や元のベースモデルから始めるべきだろうか?
すべてのモデルを各ステップでマージすべきだろうか?
どのマージテクニックが時間的マージに適しているか?
トレーニングを初期化し、モデルをデプロイするために、さまざまな戦略を使うべきだろうか?
これらの疑問に答えるために,本研究では,(1)初期化フェーズ,(2)展開フェーズ,(3)統合技術という3つの軸にまたがる時間モデルを定義する,TIME(Temporal Integration of Model Expertise)と呼ばれる統合フレームワークを提案する。
TIMEを用いて、FoMo-in-Fluxベンチマークにおいて、モデルサイズ、計算予算、学習地平線にまたがる時間モデルについて検討する。
TIMEにまたがる包括的な実験によって、時間モデルのマージに関する重要な洞察を明らかにし、現在の課題と効果的な時間モデルのマージのためのベストプラクティスをよりよく理解することができます。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。