論文の概要: DiffDoctor: Diagnosing Image Diffusion Models Before Treating
- arxiv url: http://arxiv.org/abs/2501.12382v1
- Date: Tue, 21 Jan 2025 18:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:06.320514
- Title: DiffDoctor: Diagnosing Image Diffusion Models Before Treating
- Title(参考訳): DiffDoctor:治療前に画像拡散モデルを診断する
- Authors: Yiyang Wang, Xi Chen, Xiaogang Xu, Sihui Ji, Yu Liu, Yujun Shen, Hengshuang Zhao,
- Abstract要約: DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
そして、学習したアーティファクト検出器を第2段階に巻き込み、各画像に画素ごとの信頼マップを割り当てて拡散モデルをチューニングする。
- 参考スコア(独自算出の注目度): 57.82359018425674
- License:
- Abstract: In spite of the recent progress, image diffusion models still produce artifacts. A common solution is to refine an established model with a quality assessment system, which generally rates an image in its entirety. In this work, we believe problem-solving starts with identification, yielding the request that the model should be aware of not just the presence of defects in an image, but their specific locations. Motivated by this, we propose DiffDoctor, a two-stage pipeline to assist image diffusion models in generating fewer artifacts. Concretely, the first stage targets developing a robust artifact detector, for which we collect a dataset of over 1M flawed synthesized images and set up an efficient human-in-the-loop annotation process, incorporating a carefully designed class-balance strategy. The learned artifact detector is then involved in the second stage to tune the diffusion model through assigning a per-pixel confidence map for each synthesis. Extensive experiments on text-to-image diffusion models demonstrate the effectiveness of our artifact detector as well as the soundness of our diagnose-then-treat design.
- Abstract(参考訳): 近年の進歩にもかかわらず、画像拡散モデルはまだ人工物を生産している。
一般的な解決策は、確立されたモデルを品質評価システムで洗練し、概して全体像を評価することである。
本研究では,画像中の欠陥の存在だけでなく,その特定の位置の存在をモデルが認識するべきだという要求が,識別から始まっていると信じている。
そこで我々はDiffDoctorを提案する。DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを助ける。
具体的には, 1段目は, 100万枚以上の欠陥画像のデータセットを収集し, 適切に設計されたクラスバランス戦略を取り入れた, 効率的なヒューマン・イン・ザ・ループのアノテーションプロセスを構築する, 堅牢なアーティファクト検出器の開発を目標としている。
学習されたアーティファクト検出器は、各合成に画素ごとの信頼マップを割り当てることで拡散モデルをチューニングするために第2段階に関与する。
テキスト・ツー・イメージ拡散モデルに対する広範囲な実験は、アーティファクト・ディテクターの有効性と、診断・治療設計の健全性を示している。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Mask-guided cross-image attention for zero-shot in-silico histopathologic image generation with a diffusion model [0.10910416614141322]
拡散モデルは、シリコン内画像を生成する最先端のソリューションである。
自然画像の出現伝達拡散モデルが設計されている。
計算病理学、特に腫瘍学では、画像内のどのオブジェクトを前景と背景に分類すべきかを簡単に定義することはできない。
我々は,クラス固有のAdaIN特徴量マッチングを交互に行うために,外観伝達指導を変更することで,拡散安定画像への外観伝達モデルの適用性に寄与する。
論文 参考訳(メタデータ) (2024-07-16T12:36:26Z) - FM-OSD: Foundation Model-Enabled One-Shot Detection of Anatomical Landmarks [44.54301473673582]
医用画像のランドマーク検出を高精度に行うための,最初の基礎モデル付きワンショットランドマーク検出(FM-OSD)フレームワークを提案する。
本手法は,単一のテンプレート画像のみを用いることで,最先端のワンショットランドマーク検出法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:02Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - DiffGAR: Model-Agnostic Restoration from Generative Artifacts Using
Image-to-Image Diffusion Models [46.46919194633776]
この作業は、多様な生成モデルのためのプラグイン後処理モジュールの開発を目的としている。
従来の劣化パターンとは異なり、生成アーティファクトは非線形であり、変換関数は非常に複雑である。
論文 参考訳(メタデータ) (2022-10-16T16:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。