論文の概要: Task-Model Alignment: A Simple Path to Generalizable AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2512.06746v1
- Date: Sun, 07 Dec 2025 09:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.502064
- Title: Task-Model Alignment: A Simple Path to Generalizable AI-Generated Image Detection
- Title(参考訳): タスクモデルアライメント: 一般化可能なAI生成画像検出への簡単な道
- Authors: Ruoxin Chen, Jiahui Gao, Kaiqing Lin, Keyue Zhang, Yandan Zhao, Isabel Guan, Taiping Yao, Shouhong Ding,
- Abstract要約: 視覚言語モデル(VLM)はAI生成画像(AIGI)検出にますます採用されている。
VLMのアンダーパフォーマンスはタスクモデルのミスアライメントに起因する。
本稿では,AIGI検出を2つの補完的タスクとして形式化する。
- 参考スコア(独自算出の注目度): 57.17054616831796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are increasingly adopted for AI-generated images (AIGI) detection, yet converting VLMs into detectors requires substantial resource, while the resulting models still exhibit severe hallucinations. To probe the core issue, we conduct an empirical analysis and observe two characteristic behaviors: (i) fine-tuning VLMs on high-level semantic supervision strengthens semantic discrimination and well generalize to unseen data; (ii) fine-tuning VLMs on low-level pixel-artifact supervision yields poor transfer. We attribute VLMs' underperformance to task-model misalignment: semantics-oriented VLMs inherently lack sensitivity to fine-grained pixel artifacts, and semantically non-discriminative pixel artifacts thus exceeds their inductive biases. In contrast, we observe that conventional pixel-artifact detectors capture low-level pixel artifacts yet exhibit limited semantic awareness relative to VLMs, highlighting that distinct models are better matched to distinct tasks. In this paper, we formalize AIGI detection as two complementary tasks--semantic consistency checking and pixel-artifact detection--and show that neglecting either induces systematic blind spots. Guided by this view, we introduce the Task-Model Alignment principle and instantiate it as a two-branch detector, AlignGemini, comprising a VLM fine-tuned exclusively with pure semantic supervision and a pixel-artifact expert trained exclusively with pure pixel-artifact supervision. By enforcing orthogonal supervision on two simplified datasets, each branch trains to its strengths, producing complementary discrimination over semantic and pixel cues. On five in-the-wild benchmarks, AlignGemini delivers a +9.5 gain in average accuracy, supporting task-model alignment as an effective path to generalizable AIGI detection.
- Abstract(参考訳): 視覚言語モデル(VLM)はAI生成画像(AIGI)検出にますます採用されているが、VLMを検出器に変換するにはかなりのリソースが必要である。
核となる問題を調査するため、実証分析を行い、2つの特徴的挙動を観察する。
(i)高レベルの意味的監督に関する微調整VLMは、意味的識別を強化し、目に見えないデータに適切に一般化する。
(II)低レベルの画素アーティファクト監視のための微調整VLMは、転送不良をもたらす。
セマンティックス指向のVLMは本質的に細粒度の画素アーティファクトに対する感度に欠けており、意味的に非差別的な画素アーティファクトは誘導バイアスを超える。
対照的に、従来の画素アーチファクト検出器は、低レベルの画素アーティファクトをキャプチャするが、VLMに対するセマンティックな認識は限定的であることを観察し、異なるモデルが異なるタスクによく適合していることを強調した。
本稿では,AIGI検出を2つの補完的タスク – 意味的整合性チェックと画素アーチファクト検出 – として形式化し,無視が系統的な盲点を引き起こすことを示す。
この観点から、我々はタスクモデルアライメントの原則を導入し、2分岐検出器であるAlignGeminiとしてインスタンス化し、純粋なセマンティック・インテリジェンスのみを専門とするVLMと、純粋なピクセル・アーティファクト・インテリジェンスのみを専門とするピクセル・アーティファクト・エキスパートからなる。
2つの単純化されたデータセットに対して直交的な監督を行うことで、各ブランチはその強度を訓練し、セマンティックとピクセルのキューに対する相補的な差別を生み出します。
ワイルドな5つのベンチマークでは、AlignGeminiは平均精度が+9.5向上し、AIGI検出を一般化するための効果的なパスとしてタスクモデルアライメントをサポートする。
関連論文リスト
- INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection [26.484706270778318]
本稿では,ドメインバイアスを低減し,セマンティックアライメントを強化するための新しいトレーニングフレームワークであるGAMMAを提案する。
多重分割ヘッドと分類ヘッドを併用したマルチタスク監視を採用し、様々な生成領域にまたがる画素レベルのソース属性を実現する。
提案手法は,GenImageベンチマークにおける最先端の一般化性能を実現し,精度を5.8%向上させるとともに,GPT-4oのような新たにリリースされた生成モデルに対する強靭性も維持する。
論文 参考訳(メタデータ) (2025-09-12T13:46:54Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。