論文の概要: Filtered-Guided Diffusion: Fast Filter Guidance for Black-Box Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.17141v1
- Date: Thu, 29 Jun 2023 17:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:07:47.131727
- Title: Filtered-Guided Diffusion: Fast Filter Guidance for Black-Box Diffusion
Models
- Title(参考訳): フィルタ付き拡散:ブラックボックス拡散モデルのための高速フィルタガイダンス
- Authors: Zeqi Gu, Abe Davis
- Abstract要約: FilteredGuidedDiffusionは画像から画像への変換と編集のための新しいアプローチである。
前のステップの出力に基づいて各拡散ステップの入力に適応的にフィルタを適用する。
パフォーマンスに対するコストは無視でき、ガイダンスの強度を他のアプローチよりも継続的に調整することができる。
- 参考スコア(独自算出の注目度): 8.566457170664926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion-based generative models have shown incredible
promise for Image-to-Image translation and editing. Most recent work in this
space relies on additional training or architecture-specific adjustments to the
diffusion process. In this work, we show that much of this low-level control
can be achieved without additional training or any access to features of the
diffusion model. Our method simply applies a filter to the input of each
diffusion step based on the output of the previous step in an adaptive manner.
Notably, this approach does not depend on any specific architecture or sampler
and can be done without access to internal features of the network, making it
easy to combine with other techniques, samplers, and diffusion architectures.
Furthermore, it has negligible cost to performance, and allows for more
continuous adjustment of guidance strength than other approaches. We show FGD
offers a fast and strong baseline that is competitive with recent
architecture-dependent approaches. Furthermore, FGD can also be used as a
simple add-on to enhance the structural guidance of other state-of-the-art I2I
methods. Finally, our derivation of this method helps to understand the impact
of self attention, a key component of other recent architecture-specific I2I
approaches, in a more architecture-independent way. Project page:
https://github.com/jaclyngu/FilteredGuidedDiffusion
- Abstract(参考訳): 拡散に基づく生成モデルの最近の進歩は、画像から画像への翻訳と編集の素晴らしい約束を示している。
この分野での最近の作業は、拡散プロセスに対する追加のトレーニングやアーキテクチャ固有の調整に依存している。
本研究では,この低レベル制御の多くは,追加のトレーニングや拡散モデルの特徴へのアクセスなしに実現可能であることを示す。
本手法は,各拡散ステップの入力に対して,前ステップの出力に基づいて適応的にフィルタを適用する。
特に、このアプローチは特定のアーキテクチャやサンプリングに依存せず、ネットワークの内部機能にアクセスせずに実行できるため、他の技術やサンプル、拡散アーキテクチャと簡単に組み合わせることができる。
さらに、パフォーマンスに対するコストは無視でき、他のアプローチよりもガイダンス強度の継続的な調整が可能である。
FGDは、最近のアーキテクチャ依存アプローチと競合する、高速で強力なベースラインを提供する。
さらにFGDは、他の最先端I2I法の構造ガイダンスを強化するための単純なアドオンとしても使用できる。
最後に、この手法の導出は、他の最近のアーキテクチャ固有のi2iアプローチの重要なコンポーネントである自己注意の影響をよりアーキテクチャに依存しない方法で理解するのに役立ちます。
プロジェクトページ: https://github.com/jaclyngu/FilteredGuidedDiffusion
関連論文リスト
- DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。