論文の概要: GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2509.10250v1
- Date: Fri, 12 Sep 2025 13:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.10957
- Title: GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection
- Title(参考訳): GAMMA:AI生成画像検出のためのマルチタスクとマニピュレーション強化トレーニングによる一般化可能なアライメント
- Authors: Haozhen Yan, Yan Hong, Suning Lang, Jiahui Zhan, Yikun Ji, Yujie Gao, Jun Lan, Huijia Zhu, Weiqiang Wang, Jianfu Zhang,
- Abstract要約: 本稿では,ドメインバイアスを低減し,セマンティックアライメントを強化するための新しいトレーニングフレームワークであるGAMMAを提案する。
多重分割ヘッドと分類ヘッドを併用したマルチタスク監視を採用し、様々な生成領域にまたがる画素レベルのソース属性を実現する。
提案手法は,GenImageベンチマークにおける最先端の一般化性能を実現し,精度を5.8%向上させるとともに,GPT-4oのような新たにリリースされた生成モデルに対する強靭性も維持する。
- 参考スコア(独自算出の注目度): 26.484706270778318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With generative models becoming increasingly sophisticated and diverse, detecting AI-generated images has become increasingly challenging. While existing AI-genereted Image detectors achieve promising performance on in-distribution generated images, their generalization to unseen generative models remains limited. This limitation is largely attributed to their reliance on generation-specific artifacts, such as stylistic priors and compression patterns. To address these limitations, we propose GAMMA, a novel training framework designed to reduce domain bias and enhance semantic alignment. GAMMA introduces diverse manipulation strategies, such as inpainting-based manipulation and semantics-preserving perturbations, to ensure consistency between manipulated and authentic content. We employ multi-task supervision with dual segmentation heads and a classification head, enabling pixel-level source attribution across diverse generative domains. In addition, a reverse cross-attention mechanism is introduced to allow the segmentation heads to guide and correct biased representations in the classification branch. Our method achieves state-of-the-art generalization performance on the GenImage benchmark, imporving accuracy by 5.8%, but also maintains strong robustness on newly released generative model such as GPT-4o.
- Abstract(参考訳): 生成モデルが洗練され多様化するにつれ、AI生成画像の検出はますます困難になっている。
既存のAI生成画像検出器は、分布内生成画像に対して有望な性能を達成するが、見当たらない生成モデルへの一般化は依然として限られている。
この制限は主に、スタイリスティックな先行と圧縮パターンのような、世代固有のアーティファクトに依存しているためである。
これらの制約に対処するため,ドメインバイアスの低減とセマンティックアライメントの強化を目的とした新しいトレーニングフレームワークであるGAMMAを提案する。
GAMMAは、インパインティングベースの操作やセマンティックス保存の摂動といった多様な操作戦略を導入し、操作されたコンテンツと認証コンテンツの一貫性を確保する。
多重分割ヘッドと分類ヘッドを併用したマルチタスク監視を採用し、様々な生成領域にまたがる画素レベルのソース属性を実現する。
さらに、セグメント化ヘッドが分類分岐におけるバイアス表現をガイドし、補正できるように、逆のクロスアテンション機構を導入する。
提案手法は,GenImageベンチマークにおける最先端の一般化性能を実現し,精度を5.8%向上させるとともに,GPT-4oのような新たにリリースされた生成モデルに対する強靭性も維持する。
関連論文リスト
- MiraGe: Multimodal Discriminative Representation Learning for Generalizable AI-Generated Image Detection [32.662682253295486]
一般化可能なAI生成画像検出のためのマルチモーダル識別学習(MiraGegenerator)を提案する。
テキスト埋め込みをセマンティックアンカーとして活用し、効果的な識別的表現学習を実現するために、マルチモーダル・プロンプト・ラーニングを適用した。
MiraGegeneratorは最先端のパフォーマンスを実現し、Soraのような目に見えないジェネレータに対してさえ堅牢性を維持している。
論文 参考訳(メタデータ) (2025-08-03T00:19:18Z) - NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Bi-Level Optimization for Self-Supervised AI-Generated Face Detection [56.57881725223548]
両レベル最適化に基づくAI生成顔検出器の自己教師方式を提案する。
我々の検出器は、一級・二級の分類設定において、既存のアプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-30T16:38:29Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。
我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文 参考訳(メタデータ) (2022-12-21T18:07:39Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - A Method for Evaluating Deep Generative Models of Images via Assessing
the Reproduction of High-order Spatial Context [9.00018232117916]
GAN(Generative Adversarial Network)は、広く使われているDGMの一種である。
本稿では,2つのGANアーキテクチャによって出力される画像の客観的なテストについて述べる。
我々は、訓練されたGANによって生成した画像の特徴を再現できるいくつかのコンテキストモデル(SCM)を設計した。
論文 参考訳(メタデータ) (2021-11-24T15:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。