論文の概要: See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
- arxiv url: http://arxiv.org/abs/2602.20951v1
- Date: Tue, 24 Feb 2026 14:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.789443
- Title: See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
- Title(参考訳): 欠陥の発見と修正: エージェントデータ合成による視覚アーチファクトの理解のためのVLMと拡散モデルの構築
- Authors: Jaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park,
- Abstract要約: ArtiAgentは、リアルイメージとアーティファクトインジェクトイメージのペアを効率よく生成する。
実際の画像から実体やサブエンティティを認識する知覚エージェント、アーティファクト注入ツールを介してアーティファクトを導入する合成エージェント、合成アーティファクトをフィルタリングするキュレーションエージェントの3つからなる。
- 参考スコア(独自算出の注目度): 17.896266572037348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite recent advances in diffusion models, AI generated images still often contain visual artifacts that compromise realism. Although more thorough pre-training and bigger models might reduce artifacts, there is no assurance that they can be completely eliminated, which makes artifact mitigation a highly crucial area of study. Previous artifact-aware methodologies depend on human-labeled artifact datasets, which are costly and difficult to scale, underscoring the need for an automated approach to reliably acquire artifact-annotated datasets. In this paper, we propose ArtiAgent, which efficiently creates pairs of real and artifact-injected images. It comprises three agents: a perception agent that recognizes and grounds entities and subentities from real images, a synthesis agent that introduces artifacts via artifact injection tools through novel patch-wise embedding manipulation within a diffusion transformer, and a curation agent that filters the synthesized artifacts and generates both local and global explanations for each instance. Using ArtiAgent, we synthesize 100K images with rich artifact annotations and demonstrate both efficacy and versatility across diverse applications. Code is available at link.
- Abstract(参考訳): 拡散モデルの最近の進歩にもかかわらず、AIが生成した画像は、現実主義を損なう視覚的アーティファクトを含んでいることが多い。
より徹底的な事前学習や大型モデルは、アーティファクトを減らすかもしれないが、完全に排除できるという保証はなく、アーティファクトの緩和は極めて重要な研究分野である。
従来、アーティファクト対応の方法論は、コストがかかり、スケールが難しい、人間のラベル付きアーティファクトデータセットに依存していたため、アーティファクトアノテーション付きデータセットを確実に取得するための自動化アプローチの必要性が強調されていた。
本稿では,実画像と人工画像のペアを効率よく生成するArtiAgentを提案する。
実際の画像からエンティティやサブエンティティを認識し、接地する知覚エージェントと、拡散トランスフォーマーにパッチワイドな新しい埋め込み操作を通じてアーティファクト注入ツールを介してアーティファクトを導入する合成エージェントと、合成されたアーティファクトをフィルタリングし、各インスタンスのローカルおよびグローバルな説明を生成するキュレーションエージェントとを含む。
ArtiAgentを用いて、豊富なアーティファクトアノテーションで100K画像を合成し、多様なアプリケーションにまたがる有効性と汎用性を実証する。
コードはリンクで入手できる。
関連論文リスト
- LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation [44.246370685732444]
本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。
FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。
また、FakeClueは、7つのカテゴリにまたがる10万以上の画像を含む包括的なデータセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされています。
論文 参考訳(メタデータ) (2025-03-19T05:14:44Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model [15.616316848126642]
総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
論文 参考訳(メタデータ) (2024-02-28T05:54:02Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。