論文の概要: Towards Practical Plug-and-Play Diffusion Models
- arxiv url: http://arxiv.org/abs/2212.05973v1
- Date: Mon, 12 Dec 2022 15:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:07:33.848553
- Title: Towards Practical Plug-and-Play Diffusion Models
- Title(参考訳): プラグアンドプレイ拡散モデルに向けて
- Authors: Hyojun Go, Yunsung Lee, Jin-Young Kim, Seunghyun Lee, Myeongho Jeong,
Hyun Seung Lee, and Seungtaek Choi
- Abstract要約: 拡散に基づく生成モデルは、画像生成において顕著な成功を収めた。
市販の市販オフザシェルフモデルのガイダンスへの直接的使用は、ノイズの多い入力のパフォーマンスが低かったために失敗する。
既存のプラクティスは、ノイズで汚染されたラベル付きデータでガイダンスモデルを微調整することです。
- 参考スコア(独自算出の注目度): 19.846094740800254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative models have achieved remarkable success in image
generation. Their guidance formulation allows an external model to
plug-and-play control the generation process for various tasks without
fine-tuning the diffusion model. However, the direct use of publicly available
off-the-shelf models for guidance fails due to their poor performance on noisy
inputs. For that, the existing practice is to fine-tune the guidance models
with labeled data corrupted with noises. In this paper, we argue that this
practice has limitations in two aspects: (1) performing on inputs with
extremely various noises is too hard for a single model; (2) collecting labeled
datasets hinders scaling up for various tasks. To tackle the limitations, we
propose a novel strategy that leverages multiple experts where each expert is
specialized in a particular noise range and guides the reverse process at its
corresponding timesteps. However, as it is infeasible to manage multiple
networks and utilize labeled data, we present a practical guidance framework
termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient
fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet
class conditional generation experiments to show that our method can
successfully guide diffusion with small trainable parameters and no labeled
data. Finally, we show that image classifiers, depth estimators, and semantic
segmentation models can guide publicly available GLIDE through our framework in
a plug-and-play manner.
- Abstract(参考訳): 拡散に基づく生成モデルは画像生成において顕著な成功を収めた。
彼らのガイダンスの定式化により、外部モデルは拡散モデルを微調整することなく様々なタスクの生成プロセスをプラグ・アンド・プレイで制御できる。
しかし、市販の市販オフザシェルフモデルのガイダンスへの直接的利用は、ノイズの多い入力における性能が低かったために失敗する。
そのため、既存のプラクティスは、ラベル付きデータがノイズで破損したガイダンスモデルを微調整することです。
本稿では,(1)非常に多様なノイズを持つ入力に対して実行することは単一モデルでは難しい,(2)ラベル付きデータセットの収集は様々なタスクのスケールアップを妨げる,という2つの側面に限界がある,と主張する。
この制約に対処するために,各専門家が特定のノイズ範囲に特化している複数の専門家を活用し,対応するタイミングで逆処理を誘導する新しい戦略を提案する。
しかし,複数ネットワークの管理やラベル付きデータの利用が不可能なため,パラメータ効率の高い微調整とデータフリーな知識伝達を利用した実践的プラグアンドプレイ(PPAP)フレームワークを提案する。
我々はImageNetクラス条件生成実験を徹底的に実施し、小さなトレーニング可能なパラメータとラベル付きデータで拡散を導出できることを示す。
最後に、画像分類器、深度推定器、セマンティックセグメンテーションモデルが、我々のフレームワークを通じて、プラグイン・アンド・プレイ方式でGLIDEをガイドできることを示す。
関連論文リスト
- Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。