論文の概要: Towards Practical Plug-and-Play Diffusion Models
- arxiv url: http://arxiv.org/abs/2212.05973v2
- Date: Mon, 27 Mar 2023 13:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:11:17.234952
- Title: Towards Practical Plug-and-Play Diffusion Models
- Title(参考訳): プラグアンドプレイ拡散モデルに向けて
- Authors: Hyojun Go, Yunsung Lee, Jin-Young Kim, Seunghyun Lee, Myeongho Jeong,
Hyun Seung Lee, and Seungtaek Choi
- Abstract要約: 拡散に基づく生成モデルは、画像生成において顕著な成功を収めた。
市販の市販オフザシェルフモデルのガイダンスへの直接的使用は、ノイズの多い入力のパフォーマンスが低かったために失敗する。
既存のプラクティスは、ノイズで汚染されたラベル付きデータでガイダンスモデルを微調整することです。
- 参考スコア(独自算出の注目度): 19.846094740800254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative models have achieved remarkable success in image
generation. Their guidance formulation allows an external model to
plug-and-play control the generation process for various tasks without
finetuning the diffusion model. However, the direct use of publicly available
off-the-shelf models for guidance fails due to their poor performance on noisy
inputs. For that, the existing practice is to fine-tune the guidance models
with labeled data corrupted with noises. In this paper, we argue that this
practice has limitations in two aspects: (1) performing on inputs with
extremely various noises is too hard for a single guidance model; (2)
collecting labeled datasets hinders scaling up for various tasks. To tackle the
limitations, we propose a novel strategy that leverages multiple experts where
each expert is specialized in a particular noise range and guides the reverse
process of the diffusion at its corresponding timesteps. However, as it is
infeasible to manage multiple networks and utilize labeled data, we present a
practical guidance framework termed Practical Plug-And-Play (PPAP), which
leverages parameter-efficient fine-tuning and data-free knowledge transfer. We
exhaustively conduct ImageNet class conditional generation experiments to show
that our method can successfully guide diffusion with small trainable
parameters and no labeled data. Finally, we show that image classifiers, depth
estimators, and semantic segmentation models can guide publicly available GLIDE
through our framework in a plug-and-play manner. Our code is available at
https://github.com/riiid/PPAP.
- Abstract(参考訳): 拡散に基づく生成モデルは画像生成において顕著な成功を収めた。
彼らのガイダンスの定式化により、拡散モデルを微調整することなく、外部モデルが様々なタスクの生成プロセスをプラグアンドプレイで制御できる。
しかし、市販の市販オフザシェルフモデルのガイダンスへの直接的利用は、ノイズの多い入力における性能が低かったために失敗する。
そのため、既存のプラクティスは、ラベル付きデータがノイズで破損したガイダンスモデルを微調整することです。
本稿では,(1)非常に多様なノイズを入力として実行することは,単一のガイダンスモデルでは難しいこと,(2)ラベル付きデータセットの収集は様々なタスクのスケールアップを妨げること,の2つの側面に制限があることを論じる。
この制約に対処するために,各専門家が特定のノイズ範囲に特化している複数の専門家を活用し,対応するタイミングで拡散の逆過程を導く新しい戦略を提案する。
しかし,複数ネットワークの管理やラベル付きデータの利用が不可能なため,パラメータ効率の高い微調整とデータフリーな知識伝達を利用した実践的プラグアンドプレイ(PPAP)フレームワークを提案する。
我々はImageNetクラス条件生成実験を徹底的に実施し、小さなトレーニング可能なパラメータとラベル付きデータで拡散を導出できることを示す。
最後に、画像分類器、深度推定器、セマンティックセグメンテーションモデルが、我々のフレームワークを通じて、プラグイン・アンド・プレイ方式でGLIDEをガイドできることを示す。
私たちのコードはhttps://github.com/riiid/ppapで入手できる。
関連論文リスト
- Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。