論文の概要: ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs
- arxiv url: http://arxiv.org/abs/2602.09475v1
- Date: Tue, 10 Feb 2026 07:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.423116
- Title: ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs
- Title(参考訳): 人工物:VLMによる人工物検出には数百のラベルが十分
- Authors: James Burgess, Rameen Abdal, Dan Stoddart, Sergey Tulyakov, Serena Yeung-Levy, Kuan-Chieh Jackson Wang,
- Abstract要約: ArtifactLensは、5つの人間のアーティファクトベンチマークで最先端を達成する。
事前訓練されたVLMは、すでにアーティファクトを検出するのに必要な知識をコード化している。
本手法は他のアーティファクトタイプ – 対象形態学,動物解剖学,実体的相互作用 – に一般化する。
- 参考スコア(独自算出の注目度): 43.85474845650244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image generators produce strikingly realistic images, where only artifacts like distorted hands or warped objects reveal their synthetic origin. Detecting these artifacts is essential: without detection, we cannot benchmark generators or train reward models to improve them. Current detectors fine-tune VLMs on tens of thousands of labeled images, but this is expensive to repeat whenever generators evolve or new artifact types emerge. We show that pretrained VLMs already encode the knowledge needed to detect artifacts - with the right scaffolding, this capability can be unlocked using only a few hundred labeled examples per artifact category. Our system, ArtifactLens, achieves state-of-the-art on five human artifact benchmarks (the first evaluation across multiple datasets) while requiring orders of magnitude less labeled data. The scaffolding consists of a multi-component architecture with in-context learning and text instruction optimization, with novel improvements to each. Our methods generalize to other artifact types - object morphology, animal anatomy, and entity interactions - and to the distinct task of AIGC detection.
- Abstract(参考訳): 現代の画像生成装置は、変形した手や歪んだ物体などの人工物だけが合成原点を明らかにする、驚くほどリアルな画像を生成する。
検出なしでは、ジェネレータをベンチマークしたり、改善のために報酬モデルをトレーニングすることはできない。
現在の検出器は、何万ものラベル付き画像に精細なVLMを付加するが、ジェネレータが進化したり、新しいアーティファクトが出現するたびに繰り返すのはコストがかかる。
我々は、事前訓練されたVLMが、アーティファクトを検出するのに必要な知識をすでにエンコードしていることを示す。
私たちのシステムであるArtifactLensは、ラベル付きデータを桁違いに減らしながら、5つの人間のアーティファクトベンチマーク(複数のデータセットにまたがる最初の評価)の最先端を達成します。
足場は、コンテキスト内学習とテキスト命令最適化を備えたマルチコンポーネントアーキテクチャで構成され、それぞれに新たな改善が加えられている。
本手法は, 物体形態学, 動物解剖学, 実体相互作用など他の人工物の種類, およびAIGC検出の異なる課題に一般化する。
関連論文リスト
- Prominence-Aware Artifact Detection and Dataset for Image Super-Resolution [0.7297638898415074]
我々は、人工物は、一様二元的欠陥として扱われるのではなく、人間の観察者に対する卓越性によって特徴づけられるべきであると論じる。
そこで本研究では,11の現代の画像-SR手法から1302のアーティファクトを抽出した新しいデータセットを提案する。
我々は,空間的プロミネンス・ヒートマップを生成する軽量な回帰器を訓練し,優れたアーティファクトを検出するために既存の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-10-19T08:28:53Z) - LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - MVAD: A Multiple Visual Artifact Detector for Video Streaming [7.154108202395319]
ヴィジュアルアーティファクトは、しばしば、コンテンツ制作と配信の間、一般的な条件のために、ストリーミングされたビデオコンテンツに導入される。
既存の検出方法は、しばしば単一の種類のアーティファクトに集中し、アーティファクトの存在を決定する。
本稿では,ビデオストリーミングのためのマルチビジュアルアーティファクト検出器であるMVADを提案し,複数のアーティファクトを初めて検出できる。
論文 参考訳(メタデータ) (2024-05-31T21:56:04Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。
より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:58Z) - Generalizable Deep Learning Method for Suppressing Unseen and Multiple
MRI Artifacts Using Meta-learning [1.376408511310322]
カリキュラム学習とMAMLを統合し,学習中に複数のアーティファクトの復元を適応的に学習する学習プロセスであるCMAMLを提案する。
CMAMLは、見えない種類の83%に優れたPSNRを示し、すべてのケースでSSIMを改善し、(II)複合アーティファクト(複数アーティファクトを含むスキャン)の5例中4例において、より良いアーティファクト抑制を示す。
論文 参考訳(メタデータ) (2023-04-13T10:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。