論文の概要: See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
- arxiv url: http://arxiv.org/abs/2602.20951v1
- Date: Tue, 24 Feb 2026 14:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.789443
- Title: See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
- Title(参考訳): 欠陥の発見と修正: エージェントデータ合成による視覚アーチファクトの理解のためのVLMと拡散モデルの構築
- Authors: Jaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park,
- Abstract要約: ArtiAgentは、リアルイメージとアーティファクトインジェクトイメージのペアを効率よく生成する。
実際の画像から実体やサブエンティティを認識する知覚エージェント、アーティファクト注入ツールを介してアーティファクトを導入する合成エージェント、合成アーティファクトをフィルタリングするキュレーションエージェントの3つからなる。
- 参考スコア(独自算出の注目度): 17.896266572037348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite recent advances in diffusion models, AI generated images still often contain visual artifacts that compromise realism. Although more thorough pre-training and bigger models might reduce artifacts, there is no assurance that they can be completely eliminated, which makes artifact mitigation a highly crucial area of study. Previous artifact-aware methodologies depend on human-labeled artifact datasets, which are costly and difficult to scale, underscoring the need for an automated approach to reliably acquire artifact-annotated datasets. In this paper, we propose ArtiAgent, which efficiently creates pairs of real and artifact-injected images. It comprises three agents: a perception agent that recognizes and grounds entities and subentities from real images, a synthesis agent that introduces artifacts via artifact injection tools through novel patch-wise embedding manipulation within a diffusion transformer, and a curation agent that filters the synthesized artifacts and generates both local and global explanations for each instance. Using ArtiAgent, we synthesize 100K images with rich artifact annotations and demonstrate both efficacy and versatility across diverse applications. Code is available at link.
- Abstract(参考訳): 拡散モデルの最近の進歩にもかかわらず、AIが生成した画像は、現実主義を損なう視覚的アーティファクトを含んでいることが多い。
より徹底的な事前学習や大型モデルは、アーティファクトを減らすかもしれないが、完全に排除できるという保証はなく、アーティファクトの緩和は極めて重要な研究分野である。
従来、アーティファクト対応の方法論は、コストがかかり、スケールが難しい、人間のラベル付きアーティファクトデータセットに依存していたため、アーティファクトアノテーション付きデータセットを確実に取得するための自動化アプローチの必要性が強調されていた。
本稿では,実画像と人工画像のペアを効率よく生成するArtiAgentを提案する。
実際の画像からエンティティやサブエンティティを認識し、接地する知覚エージェントと、拡散トランスフォーマーにパッチワイドな新しい埋め込み操作を通じてアーティファクト注入ツールを介してアーティファクトを導入する合成エージェントと、合成されたアーティファクトをフィルタリングし、各インスタンスのローカルおよびグローバルな説明を生成するキュレーションエージェントとを含む。
ArtiAgentを用いて、豊富なアーティファクトアノテーションで100K画像を合成し、多様なアプリケーションにまたがる有効性と汎用性を実証する。
コードはリンクで入手できる。
関連論文リスト
- TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection [70.42796551833946]
テクスチャレベルのアーティファクトとセマンティックな特徴をマルチモーダルな言語モデル(MLLM)に組み込むことで、AIGI検出能力を向上することができる。
本稿では,タスク認識型Optimal-Transport Fusionを統合した軽量フュージョンアダプタTranX-Adapterを提案する。
いくつかの高度なMLLM上での標準AIGI検出ベンチマークの実験は、TranX-Adapterが一貫性と大幅な改善をもたらすことを示している。
論文 参考訳(メタデータ) (2026-02-25T09:22:46Z) - Improving Artifact Robustness for CT Deep Learning Models Without Labeled Artifact Images via Domain Adaptation [2.7001982817730616]
本研究では,新しいアーティファクトに拘わらず,分類性能を維持するための訓練モデルとして,ドメイン適応を評価した。
シングラム空間における検出ゲイン誤差から得られたリングアーティファクトをシミュレートし,OrganAMNIST腹部CTデータセットに対するベースラインおよび拡張に基づくアプローチに対して,ドメイン敵ニューラルネットワーク(DANN)を評価する。
その結果, クリーンな画像のみをトレーニングしたベースラインモデルは, リングアーティファクトを持つ画像に一般化できず, 従来の歪み型による拡張は, 目に見えないアーティファクトドメインに改善を与えないことを示した。
論文 参考訳(メタデータ) (2025-10-08T02:27:09Z) - Synthesizing Artifact Dataset for Pixel-level Detection [16.31703475992344]
ファクト検出器は、微調整中に報酬モデルとして機能することにより、画像生成モデルの性能を向上させる。
本研究では, 人工物を自動的に, 所定の領域で高品質な合成画像に注入する人工物汚濁パイプラインを提案する。
提案手法は,ConvNeXtで13.2%,Swin-Tで3.7%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-09-23T21:28:33Z) - LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation [44.246370685732444]
本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。
FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。
また、FakeClueは、7つのカテゴリにまたがる10万以上の画像を含む包括的なデータセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされています。
論文 参考訳(メタデータ) (2025-03-19T05:14:44Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model [15.616316848126642]
総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
論文 参考訳(メタデータ) (2024-02-28T05:54:02Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。