論文の概要: Efficient Diffusion-Driven Corruption Editor for Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2403.10911v2
- Date: Tue, 19 Mar 2024 02:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 12:54:38.101946
- Title: Efficient Diffusion-Driven Corruption Editor for Test-Time Adaptation
- Title(参考訳): テスト時間適応のための効率よい拡散駆動型破壊エディタ
- Authors: Yeongtak Oh, Jonghyun Lee, Jooyoung Choi, Dahuin Jung, Uiwon Hwang, Sungroh Yoon,
- Abstract要約: テスト時間適応(TTA)は、テスト時間中に発生する予期せぬ分散シフトに対処する。
画像復元のための拡散ベースの最近のTTAアプローチには、画像レベルの更新が含まれる。
遅延拡散モデル(LDM)に基づく画像編集モデルを利用した新しいTTA手法を提案する。
- 参考スコア(独自算出の注目度): 37.67328706787212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation (TTA) addresses the unforeseen distribution shifts occurring during test time. In TTA, both performance and, memory and time consumption serve as crucial considerations. A recent diffusion-based TTA approach for restoring corrupted images involves image-level updates. However, using pixel space diffusion significantly increases resource requirements compared to conventional model updating TTA approaches, revealing limitations as a TTA method. To address this, we propose a novel TTA method by leveraging a latent diffusion model (LDM) based image editing model and fine-tuning it with our newly introduced corruption modeling scheme. This scheme enhances the robustness of the diffusion model against distribution shifts by creating (clean, corrupted) image pairs and fine-tuning the model to edit corrupted images into clean ones. Moreover, we introduce a distilled variant to accelerate the model for corruption editing using only 4 network function evaluations (NFEs). We extensively validated our method across various architectures and datasets including image and video domains. Our model achieves the best performance with a 100 times faster runtime than that of a diffusion-based baseline. Furthermore, it outpaces the speed of the model updating TTA method based on data augmentation threefold, rendering an image-level updating approach more practical.
- Abstract(参考訳): テスト時間適応(TTA)は、テスト時間中に発生する予期せぬ分散シフトに対処する。
TTAでは、パフォーマンスとメモリと時間消費の両方が重要な考慮事項である。
最近の拡散ベースの画像復元のためのTTAアプローチには、画像レベルの更新が含まれる。
しかし, 画素空間拡散を用いた場合, 従来のモデル更新TTA手法に比べて資源要求が大幅に増加し, TTA法としての限界が明らかとなった。
そこで本研究では,遅延拡散モデル(LDM)に基づく画像編集モデルを利用して,新たに導入した汚濁モデルを用いて微調整を行うことにより,新しいTTA手法を提案する。
このスキームは、(クリーンで、破損した)イメージペアを作成し、破損した画像をクリーンなものに微調整することによって、拡散モデルの分散シフトに対する堅牢性を高める。
さらに,4つのネットワーク関数評価(NFE)のみを用いた汚職編集モデルの高速化を目的とした蒸留変種を提案する。
画像ドメインやビデオドメインを含むさまざまなアーキテクチャやデータセットに対して,我々の手法を広範囲に検証した。
我々のモデルは拡散ベースベースラインよりも100倍高速なランタイムで最高の性能を達成する。
さらに、データ拡張3倍に基づくモデル更新TTA法の速度を上回り、画像レベルの更新アプローチをより実用的なものにする。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Debiasing Text-to-Image Diffusion Models [84.46750441518697]
学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
論文 参考訳(メタデータ) (2024-02-22T14:33:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z) - Covariance-aware Feature Alignment with Pre-computed Source Statistics
for Test-time Adaptation to Multiple Image Corruptions [11.859913430860335]
実世界の画像認識システムは、しばしば破損した入力画像に直面し、それが分散シフトを引き起こし、モデルの性能を低下させる。
テスト時間適応(TTA)は、この問題に対処できる設定の1つです。
本稿では,テスト中の分散ギャップに対処するために,共分散認識特徴アライメント(CAFe)と呼ばれる新しいTTA手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T02:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。