論文の概要: Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities
- arxiv url: http://arxiv.org/abs/2503.11905v1
- Date: Fri, 14 Mar 2025 22:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:16.217333
- Title: Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities
- Title(参考訳): マルチタスク機能のためのテキスト・画像拡散モデル
- Authors: Ruchika Chavhan, Abhinav Mehrotra, Malcolm Chadwick, Alberto Gil Ramos, Luca Morreale, Mehdi Noroozi, Sourav Bhattacharya,
- Abstract要約: マルチタスク・アップサイクリング(Multi-Task Upcycling, MTU)は、トレーニング済みのテキスト・ツー・イメージ拡散モデルの能力を拡張し、様々な画像・画像生成タスクをサポートするレシピである。
MTUは、マルチタスクとデバイス上の互換性をシームレスにブレンドする最初のマルチタスク拡散モデリング手法である。
MTUの性能は,複数のタスクにまたがる単一タスクの微調整拡散モデルと同等であることを示す。
- 参考スコア(独自算出の注目度): 8.81828807024982
- License:
- Abstract: Text-to-image synthesis has witnessed remarkable advancements in recent years. Many attempts have been made to adopt text-to-image models to support multiple tasks. However, existing approaches typically require resource-intensive re-training or additional parameters to accommodate for the new tasks, which makes the model inefficient for on-device deployment. We propose Multi-Task Upcycling (MTU), a simple yet effective recipe that extends the capabilities of a pre-trained text-to-image diffusion model to support a variety of image-to-image generation tasks. MTU replaces Feed-Forward Network (FFN) layers in the diffusion model with smaller FFNs, referred to as experts, and combines them with a dynamic routing mechanism. To the best of our knowledge, MTU is the first multi-task diffusion modeling approach that seamlessly blends multi-tasking with on-device compatibility, by mitigating the issue of parameter inflation. We show that the performance of MTU is on par with the single-task fine-tuned diffusion models across several tasks including image editing, super-resolution, and inpainting, while maintaining similar latency and computational load (GFLOPs) as the single-task fine-tuned models.
- Abstract(参考訳): テキストと画像の合成は近年顕著な進歩を遂げている。
複数のタスクをサポートするために、テキスト・ツー・イメージモデルを採用する試みが数多くなされている。
しかし、既存のアプローチでは、通常、新しいタスクに対応するためにリソース集約的な再トレーニングや追加のパラメータを必要とします。
本稿では,Multi-Task Upcycling(MTU)を提案する。MTUは,事前訓練されたテキスト・ツー・イメージ拡散モデルの能力を拡張し,様々な画像・画像生成タスクをサポートする。
MTUは拡散モデルのFeed-Forward Network(FFN)層を専門家と呼ばれるより小さなFFNに置き換え、動的ルーティング機構と組み合わせる。
我々の知る限り、MTUはパラメータインフレーションの問題を緩和し、マルチタスクとデバイス上の互換性をシームレスにブレンドする最初のマルチタスク拡散モデリング手法である。
MTUの性能は、画像編集、超解像、インパインティングを含む複数のタスクにまたがる単一タスクの微調整拡散モデルと同等であり、一方、単一タスクの微調整モデルと同様のレイテンシと計算負荷(GFLOP)を維持している。
関連論文リスト
- Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。