Fugu-MT 論文翻訳(概要): Towards Practical Plug-and-Play Diffusion Models

論文の概要: Towards Practical Plug-and-Play Diffusion Models

arxiv url: http://arxiv.org/abs/2212.05973v1
Date: Mon, 12 Dec 2022 15:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 17:07:33.848553
Title: Towards Practical Plug-and-Play Diffusion Models
Title（参考訳）: プラグアンドプレイ拡散モデルに向けて
Authors: Hyojun Go, Yunsung Lee, Jin-Young Kim, Seunghyun Lee, Myeongho Jeong, Hyun Seung Lee, and Seungtaek Choi
Abstract要約: 拡散に基づく生成モデルは、画像生成において顕著な成功を収めた。市販の市販オフザシェルフモデルのガイダンスへの直接的使用は、ノイズの多い入力のパフォーマンスが低かったために失敗する。既存のプラクティスは、ノイズで汚染されたラベル付きデータでガイダンスモデルを微調整することです。
参考スコア（独自算出の注目度）: 19.846094740800254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based generative models have achieved remarkable success in image generation. Their guidance formulation allows an external model to plug-and-play control the generation process for various tasks without fine-tuning the diffusion model. However, the direct use of publicly available off-the-shelf models for guidance fails due to their poor performance on noisy inputs. For that, the existing practice is to fine-tune the guidance models with labeled data corrupted with noises. In this paper, we argue that this practice has limitations in two aspects: (1) performing on inputs with extremely various noises is too hard for a single model; (2) collecting labeled datasets hinders scaling up for various tasks. To tackle the limitations, we propose a novel strategy that leverages multiple experts where each expert is specialized in a particular noise range and guides the reverse process at its corresponding timesteps. However, as it is infeasible to manage multiple networks and utilize labeled data, we present a practical guidance framework termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet class conditional generation experiments to show that our method can successfully guide diffusion with small trainable parameters and no labeled data. Finally, we show that image classifiers, depth estimators, and semantic segmentation models can guide publicly available GLIDE through our framework in a plug-and-play manner.
Abstract（参考訳）: 拡散に基づく生成モデルは画像生成において顕著な成功を収めた。彼らのガイダンスの定式化により、外部モデルは拡散モデルを微調整することなく様々なタスクの生成プロセスをプラグ・アンド・プレイで制御できる。しかし、市販の市販オフザシェルフモデルのガイダンスへの直接的利用は、ノイズの多い入力における性能が低かったために失敗する。そのため、既存のプラクティスは、ラベル付きデータがノイズで破損したガイダンスモデルを微調整することです。本稿では,(1)非常に多様なノイズを持つ入力に対して実行することは単一モデルでは難しい,(2)ラベル付きデータセットの収集は様々なタスクのスケールアップを妨げる,という2つの側面に限界がある,と主張する。この制約に対処するために,各専門家が特定のノイズ範囲に特化している複数の専門家を活用し,対応するタイミングで逆処理を誘導する新しい戦略を提案する。しかし,複数ネットワークの管理やラベル付きデータの利用が不可能なため,パラメータ効率の高い微調整とデータフリーな知識伝達を利用した実践的プラグアンドプレイ(PPAP)フレームワークを提案する。我々はImageNetクラス条件生成実験を徹底的に実施し、小さなトレーニング可能なパラメータとラベル付きデータで拡散を導出できることを示す。最後に、画像分類器、深度推定器、セマンティックセグメンテーションモデルが、我々のフレームワークを通じて、プラグイン・アンド・プレイ方式でGLIDEをガイドできることを示す。

関連論文リスト

TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models [21.435477418640403]
オフザシェルフモデルによるガイダンスによるトレーニングフリーコンディショニングは、ベースモデルのさらなる微調整を避けるための好都合な代替手段である。本稿では,TITAN-Guide(TITAN-Guide)と呼ばれる,ガイド付きテキスト・ビデオ拡散モデルに対する推論時間アライメントを提案する。提案手法は,メモリ要求を最小限に抑えるだけでなく,様々な拡散誘導ベンチマークにおけるT2V性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-08-01T03:26:18Z)
On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning [14.707830064594056]
拡散オートエンコーダ(DA)は、入力依存の潜在変数を使用して、拡散過程と共に表現をキャプチャする。より良い生成モデリングは、別のクラスの拡散モデル -- 前方(ノイズ)プロセスを学ぶもの -- の第一の目標です。
論文参考訳（メタデータ） (2025-05-30T18:14:09Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-20T14:22:12Z)
One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文参考訳（メタデータ） (2024-03-18T17:59:40Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文参考訳（メタデータ） (2023-04-11T04:31:00Z)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。 PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳（メタデータ） (2023-03-21T15:34:50Z)
Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。本手法は,様々な画像粒度の誘導信号を提供する。単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文参考訳（メタデータ） (2022-10-12T17:57:58Z)
Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文参考訳（メタデータ） (2021-12-06T15:55:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。