論文の概要: CleanDIFT: Diffusion Features without Noise
- arxiv url: http://arxiv.org/abs/2412.03439v2
- Date: Mon, 07 Apr 2025 13:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 20:14:38.69445
- Title: CleanDIFT: Diffusion Features without Noise
- Title(参考訳): CleanDIFT: ノイズのない拡散機能
- Authors: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer,
- Abstract要約: 大規模事前学習拡散モデルの内部特徴は、近年、幅広い下流タスクのための強力な意味記述子として確立されている。
このノイズは、異なるランダムノイズをアンサンブルすることで補うことができないこれらの特徴の有用性に重大な影響を与えることを示す。
拡散バックボーンが高品質でノイズのないセマンティックな特徴を提供するための軽量で教師なしの微調整手法を提案する。
- 参考スコア(独自算出の注目度): 21.122940074160354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.
- Abstract(参考訳): 大規模事前学習拡散モデルの内部特徴は、近年、幅広い下流タスクのための強力な意味記述子として確立されている。
これらの機能を使用する作業は、一般的に、モデルを渡す前に画像にノイズを加える必要がある。
このノイズは、異なるランダムノイズをアンサンブルすることで補うことができないこれらの特徴の有用性に重大な影響を与えることを示す。
拡散バックボーンが高品質でノイズのないセマンティックな特徴を提供できる軽量で教師なしの微調整手法を導入することでこの問題に対処する。
これらの特徴は,広範囲な抽出設定や下流タスクにおいて,従来の拡散特性よりも容易に向上し,アンサンブルベースの手法よりも性能が向上することを示す。
関連論文リスト
- FreSca: Unveiling the Scaling Space in Diffusion Models [52.20473039489599]
拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にするガイダンスを通じて、画像タスクに対して印象的な制御性を提供する。
条件/条件付き雑音予測の違いがキーセマンティック情報を伝達するインバージョンベースの編集から始めることで、この空間を考察する。
我々のコアコントリビューションは、ノイズ予測のフーリエ解析に起因し、その低周波成分と高周波成分が拡散を通して異なる進化を遂げていることを明らかにする。
この知見に基づいてFreScaを導入し、FreScaはフーリエ領域の異なる周波数帯域に独立してガイダンススケーリングを適用する簡単な方法である。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Noise Synthesis for Low-Light Image Denoising with Diffusion Models [22.897202020483576]
低照度写真は、限られた光子による信号対雑音比の低い画像を生成する。
ディープラーニングの手法はうまく機能するが、取得には実用的でないペア画像の大規模なデータセットが必要である。
本稿では,低照度雑音の複雑な分布を捉える拡散モデルについて検討する。
論文 参考訳(メタデータ) (2025-03-14T10:16:54Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [35.17225451626734]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。