論文の概要: Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2602.01738v1
- Date: Mon, 02 Feb 2026 07:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.973473
- Title: Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models
- Title(参考訳): シンプルさの優位性:ビジュアルファウンデーションモデルにおける一般化可能なAIGI検出の出現
- Authors: Yue Zhou, Xinan He, Kaiqing Lin, Bing Fan, Feng Ding, Bin Li,
- Abstract要約: 現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
- 参考スコア(独自算出の注目度): 15.709482146201283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While specialized detectors for AI-Generated Images (AIGI) achieve near-perfect accuracy on curated benchmarks, they suffer from a dramatic performance collapse in realistic, in-the-wild scenarios. In this work, we demonstrate that simplicity prevails over complex architectural designs. A simple linear classifier trained on the frozen features of modern Vision Foundation Models , including Perception Encoder, MetaCLIP 2, and DINOv3, establishes a new state-of-the-art. Through a comprehensive evaluation spanning traditional benchmarks, unseen generators, and challenging in-the-wild distributions, we show that this baseline not only matches specialized detectors on standard benchmarks but also decisively outperforms them on in-the-wild datasets, boosting accuracy by striking margins of over 30\%. We posit that this superior capability is an emergent property driven by the massive scale of pre-training data containing synthetic content. We trace the source of this capability to two distinct manifestations of data exposure: Vision-Language Models internalize an explicit semantic concept of forgery, while Self-Supervised Learning models implicitly acquire discriminative forensic features from the pretraining data. However, we also reveal persistent limitations: these models suffer from performance degradation under recapture and transmission, remain blind to VAE reconstruction and localized editing. We conclude by advocating for a paradigm shift in AI forensics, moving from overfitting on static benchmarks to harnessing the evolving world knowledge of foundation models for real-world reliability.
- Abstract(参考訳): AI-Generated Images(AIGI)用の特殊検出器は、キュレートされたベンチマークでほぼ完璧な精度を達成しているが、現実的な、最先端のシナリオでは、劇的なパフォーマンスの崩壊に悩まされている。
本研究は, 複雑なアーキテクチャ設計において, 単純さが有効であることを示す。
Perception Encoder、MetaCLIP 2、DINOv3など、現代のVision Foundation Modelの凍結した機能に基づいて訓練された単純な線形分類器が、新しい最先端技術を確立している。
従来のベンチマーク、見当たらないジェネレータ、難易度分布にまたがる包括的な評価を通じて、このベースラインが標準ベンチマーク上の特別な検出器と一致しただけでなく、Wild内のデータセットでそれらを決定的に上回っており、マージンが30倍を超えることによって精度が向上していることを示す。
この優れた能力は、合成内容を含む大量の事前学習データによって引き起こされる創発的特性であると仮定する。
視覚言語モデルは、フォージェリの明示的な意味概念を内在化し、自己監督学習モデルは、事前学習データから差別的な法医学的特徴を暗黙的に取得する。
しかし、これらのモデルでは、再キャプチャと送信時の性能劣化に悩まされ、VAEの再構築と局所的な編集に盲目のままである。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - EasyOcc: 3D Pseudo-Label Supervision for Fully Self-Supervised Semantic Occupancy Prediction Models [4.347156881555099]
自己監督モデルは最近、特に意味的占有率予測の領域において顕著な進歩を遂げている。
これらのモデルは、基底構造ラベルの欠如を補うために洗練された損失計算戦略を利用する。
基礎モデルである Grounded-SAM と Metric3Dv2 が生成する3次元擬似地下構造ラベルを提案し,時間情報を用いてラベルの密度化を行う。
論文 参考訳(メタデータ) (2025-09-30T11:01:32Z) - Analysis of Transferability Estimation Metrics for Surgical Phase Recognition [3.3285108719932555]
微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
我々は,2つの多様なデータセット上で,LogME,H-Score,TransRateの3つの代表的な指標の総合ベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-22T18:05:33Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Estimating the Robustness of Classification Models by the Structure of
the Learned Feature-Space [10.418647759223964]
固定テストセットは、可能なデータバリエーションのごく一部しかキャプチャできないため、制限され、新しい過度なソリューションを生成する傾向にある、と私たちは主張する。
これらの欠点を克服するために、学習した特徴空間の構造から直接モデルのロバスト性を推定することを提案する。
論文 参考訳(メタデータ) (2021-06-23T10:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。