論文の概要: CleanDIFT: Diffusion Features without Noise
- arxiv url: http://arxiv.org/abs/2412.03439v1
- Date: Wed, 04 Dec 2024 16:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:58.989057
- Title: CleanDIFT: Diffusion Features without Noise
- Title(参考訳): CleanDIFT: ノイズのない拡散機能
- Authors: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer,
- Abstract要約: 大規模事前学習拡散モデルの内部特徴は、近年、幅広い下流タスクのための強力な意味記述子として確立されている。
このノイズは、異なるランダムノイズをアンサンブルすることで補うことができないこれらの特徴の有用性に重大な影響を与えることを示す。
拡散バックボーンが高品質でノイズのないセマンティックな特徴を提供するための軽量で教師なしの微調整手法を提案する。
- 参考スコア(独自算出の注目度): 21.122940074160354
- License:
- Abstract: Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.
- Abstract(参考訳): 大規模事前学習拡散モデルの内部特徴は、近年、幅広い下流タスクのための強力な意味記述子として確立されている。
これらの機能を使用する作業は、一般的に、モデルを渡す前に画像にノイズを加える必要がある。
このノイズは、異なるランダムノイズをアンサンブルすることで補うことができないこれらの特徴の有用性に重大な影響を与えることを示す。
拡散バックボーンが高品質でノイズのないセマンティックな特徴を提供できる軽量で教師なしの微調整手法を導入することでこの問題に対処する。
これらの特徴は,広範囲な抽出設定や下流タスクにおいて,従来の拡散特性よりも容易に向上し,アンサンブルベースの手法よりも性能が向上することを示す。
関連論文リスト
- Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation [86.7260950382448]
画像の妥当性を補正する新しい手法としてノイズ拡散法を提案する。
NoiseDiffusionはノイズの多い画像空間内で動作し、これらのノイズの多い画像に生画像を注入することで、情報損失の課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T12:32:25Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image
Captioning [36.4086473737433]
本稿では,プレフィックス拡散(Prefix-diffusion)と呼ばれる,連続拡散を伴う軽量画像キャプションネットワークを提案する。
多様性を実現するために,拡散モデルの復調過程にプレフィックス画像埋め込みを注入する効率的な手法を設計する。
トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。
論文 参考訳(メタデータ) (2023-09-10T08:55:24Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [35.17225451626734]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。