論文の概要: DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
- arxiv url: http://arxiv.org/abs/2504.12364v1
- Date: Wed, 16 Apr 2025 15:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:08.574873
- Title: DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging
- Title(参考訳): DMM:蒸留モデル統合による可視画像生成モデルの構築
- Authors: Tianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang,
- Abstract要約: スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できる、スタイルプロンプタブルな画像生成パイプラインを提案する。
この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。
実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
- 参考スコア(独自算出の注目度): 32.97010533998294
- License:
- Abstract: The success of text-to-image (T2I) generation models has spurred a proliferation of numerous model checkpoints fine-tuned from the same base model on various specialized datasets. This overwhelming specialized model production introduces new challenges for high parameter redundancy and huge storage cost, thereby necessitating the development of effective methods to consolidate and unify the capabilities of diverse powerful models into a single one. A common practice in model merging adopts static linear interpolation in the parameter space to achieve the goal of style mixing. However, it neglects the features of T2I generation task that numerous distinct models cover sundry styles which may lead to incompatibility and confusion in the merged model. To address this issue, we introduce a style-promptable image generation pipeline which can accurately generate arbitrary-style images under the control of style vectors. Based on this design, we propose the score distillation based model merging paradigm (DMM), compressing multiple models into a single versatile T2I model. Moreover, we rethink and reformulate the model merging task in the context of T2I generation, by presenting new merging goals and evaluation protocols. Our experiments demonstrate that DMM can compactly reorganize the knowledge from multiple teacher models and achieve controllable arbitrary-style generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルの成功は、様々な特殊なデータセット上で同じベースモデルから微調整された多数のモデル・チェックポイントの拡散を引き起こしている。
この圧倒的な特化モデル生産は、高いパラメータ冗長性と巨大なストレージコストに対する新たな課題を導入し、多様な強力なモデルの能力を単一のモデルに統合し統一する効果的な方法の開発を必要としている。
モデルマージにおける一般的なプラクティスは、スタイルミキシングのゴールを達成するためにパラメータ空間における静的線形補間を採用することである。
しかし、T2I生成タスクの特徴は無視され、多くの異なるモデルがサンドリースタイルをカバーし、マージされたモデルでは非互換性と混乱をもたらす可能性がある。
この問題に対処するために、スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できるスタイル予測可能な画像生成パイプラインを導入する。
この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。
さらに,新たな統合目標と評価プロトコルを提示することで,モデルマージタスクをT2I生成の文脈で再考し,再考する。
実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。