論文の概要: TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision
- arxiv url: http://arxiv.org/abs/2503.07416v1
- Date: Mon, 10 Mar 2025 15:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:37.626377
- Title: TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision
- Title(参考訳): TimeStep Master: 視覚における高効率拡散モデルのためのタイムステップLORAエキスパートの非対称混合
- Authors: Shaobin Zhuang, Yiwei Guo, Yanbo Ding, Kunchang Li, Xinyuan Chen, Yaohui Wang, Fangyikang Wang, Ying Zhang, Chen Li, Yali Wang,
- Abstract要約: 本稿では、TSM(TimeStep Master)パラダイムを2つの重要な微調整ステージで導入する。
育成段階において、異なる時間間隔で拡散モデルを微調整するために異なるLoRAを適用する。これにより、異なるノイズレベルを効果的に捉えることができるTimeStep LoRAの専門家が生まれる。
組立段階では、マルチスケール間隔で専門家のコア・コンテキスト・コラボレーションを通じて、TimeStep LoRA専門家の非対称な混合物を設計する。
我々のTSMは、最高の間隔で専門家を通して効果的にノイズレベルをモデル化し、専門家の文脈を適応的に統合することができる。
- 参考スコア(独自算出の注目度): 26.880536103673677
- License:
- Abstract: Diffusion models have driven the advancement of vision generation over the past years. However, it is often difficult to apply these large models in downstream tasks, due to massive fine-tuning cost. Recently, Low-Rank Adaptation (LoRA) has been applied for efficient tuning of diffusion models. Unfortunately, the capabilities of LoRA-tuned diffusion models are limited, since the same LoRA is used for different timesteps of the diffusion process. To tackle this problem, we introduce a general and concise TimeStep Master (TSM) paradigm with two key fine-tuning stages. In the fostering stage (1-stage), we apply different LoRAs to fine-tune the diffusion model at different timestep intervals. This results in different TimeStep LoRA experts that can effectively capture different noise levels. In the assembling stage (2-stage), we design a novel asymmetrical mixture of TimeStep LoRA experts, via core-context collaboration of experts at multi-scale intervals. For each timestep, we leverage TimeStep LoRA expert within the smallest interval as the core expert without gating, and use experts within the bigger intervals as the context experts with time-dependent gating. Consequently, our TSM can effectively model the noise level via the expert in the finest interval, and adaptively integrate contexts from the experts of other scales, boosting the versatility of diffusion models. To show the effectiveness of our TSM paradigm, we conduct extensive experiments on three typical and popular LoRA-related tasks of diffusion models, including domain adaptation, post-pretraining, and model distillation. Our TSM achieves the state-of-the-art results on all these tasks, throughout various model structures (UNet, DiT and MM-DiT) and visual data modalities (Image, Video), showing its remarkable generalization capacity.
- Abstract(参考訳): 拡散モデルは、過去数年間にビジョン生成の進歩を推進してきた。
しかし、大規模な微調整コストのため、これらの大きなモデルを下流タスクに適用することはしばしば困難である。
近年,拡散モデルの効率的なチューニングにローランド適応 (LoRA) が適用されている。
残念ながら、同じLoRAが拡散過程の異なる時間ステップに使用されるため、LoRA調整拡散モデルの能力は限られている。
この問題に対処するために,TSM(TimeStep Master)パラダイムを2つの重要な微調整段階で導入する。
育成段階(1段階)では,異なる時間間隔で拡散モデルを微調整するために異なるLoRAを適用する。
その結果、TimeStep LoRAの専門家は様々なノイズレベルを効果的に捉えることができる。
組立段階(2段階)では、マルチスケール間隔で専門家のコア・コンテキスト・コラボレーションを通じて、TimeStep LoRAエキスパートの非対称な新しい混合物を設計する。
各タイムステップにおいて、タイムステップのLoRAエキスパートをコアエキスパートとして最小間隔で活用し、時間依存ゲーティングのコンテキストエキスパートとして、より大きな間隔でエキスパートを使用します。
その結果,我々のTSMは,最も微細な間隔でのエキスパートによるノイズレベルを効果的にモデル化することができ,他のスケールの専門家によるコンテキストを適応的に統合することで,拡散モデルの汎用性を高めることができる。
TSMパラダイムの有効性を示すため、ドメイン適応、ポストプレトレーニング、モデル蒸留を含む3つの典型的なLoRA関連課題について広範囲にわたる実験を行った。
我々のTSMは、様々なモデル構造(UNet, DiT, MM-DiT)と視覚データモダリティ(画像, ビデオ)を通して、これらのタスクの最先端結果を達成し、その顕著な一般化能力を示している。
関連論文リスト
- General Time-series Model for Universal Knowledge Representation of Multivariate Time-Series data [61.163542597764796]
周波数領域で異なる時間粒度(または対応する周波数分解能)の時系列が異なる結合分布を示すことを示す。
時間領域と周波数領域の両方からタイムアウェア表現を学習するために,新しいFourierナレッジアテンション機構を提案する。
自己回帰的空白埋め込み事前学習フレームワークを時系列解析に初めて組み込み、生成タスクに依存しない事前学習戦略を実現する。
論文 参考訳(メタデータ) (2025-02-05T15:20:04Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MoSLD: An Extremely Parameter-Efficient Mixture-of-Shared LoRAs for Multi-Task Learning [8.868481107848185]
MoSLDは、ドロップアウト戦略を備えた混合共有LoRAモデルである。
MoSLDは、LoRAの上部プロジェクションマトリックスをさまざまな専門家の間で共有することで、課題に対処する。
本モデルは,シングルタスクシナリオとマルチタスクシナリオの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T05:22:49Z) - Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts [103.725112190618]
本稿では,単一入出力プロジェクション層を用いたMoirai-MoEを紹介するとともに,多種多様な時系列パターンのモデリングを専門家の疎結合に委ねる。
39のデータセットに対する大規模な実験は、既存の基盤モデルよりも、分配シナリオとゼロショットシナリオの両方において、Moirai-MoEの優位性を実証している。
論文 参考訳(メタデータ) (2024-10-14T13:01:11Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Time Series Diffusion in the Frequency Domain [54.60573052311487]
周波数領域における時系列表現がスコアベース拡散モデルに有用な帰納バイアスであるか否かを解析する。
重要なニュアンスを持つ周波数領域において、二重拡散過程が生じることを示す。
周波数領域に拡散モデルを実装するために,デノナイジングスコアマッチング手法を適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T18:59:05Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Multi-Architecture Multi-Expert Diffusion Models [18.463425624382115]
我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
論文 参考訳(メタデータ) (2023-06-08T07:24:08Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。