論文の概要: AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images
- arxiv url: http://arxiv.org/abs/2604.28177v1
- Date: Thu, 30 Apr 2026 17:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.242611
- Title: AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images
- Title(参考訳): AEGIS:AI生成アカデミック画像の法医学的分析評価のための全体的ベンチマーク
- Authors: Bo Zhang, Tzu-Yen Ma, Zichen Tang, Junpeng Ding, Zirui Wang, Yizhuo Zhao, Peilin Gao, Zijie Xi, Zixin Ding, Haiyang Sun, Haocheng Gao, Yuan Liu, Liangjia Wang, Yiling Huang, Yujie Wang, Yuyue Zhang, Ronghui Xi, Yuanze Li, Jiacheng Liu, Zhongjun Yang, Haihong E,
- Abstract要約: AEGISはAI生成学術画像の法医学的分析を評価するための総合的なベンチマークである。
AEGISは25のMLLM、9つのエキスパートモデル、および1つの統合マルチモーダル理解および生成モデルを評価することにより、学術画像法医学の基本的限界を明らかにする診断テストベッドとして機能する。
- 参考スコア(独自算出の注目度): 25.79587906632565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AEGIS, A holistic benchmark for Evaluating forensic analysis of AI-Generated academic ImageS. Compared to existing benchmarks, AEGIS features three key advances: (1) Domain-Specific Complexity: covering seven academic categories with 39 fine-grained subtypes, exposing intrinsic forensic difficulty, where even GPT-5.1 reaches 48.80% overall performance and expert models achieve only limited localization accuracy (IoU 30.09%); (2) Diverse Forgery Simulations: modeling four prevalent academic forgery strategies across 25 generative models, with 11 yielding average forensic accuracy below 50%, showing that forensics lag behind generative advances; and (3) Multi-Dimensional Forensic Evaluation: jointly assessing detection, reasoning, and localization, revealing complementary strengths between model families, with multimodal large language models (MLLMs) at 84.74% accuracy in textual artifact recognition and expert detectors peaking at 79.54% accuracy in binary authenticity detection. By evaluating 25 leading MLLMs, nine expert models, and one unified multimodal understanding and generation model, AEGIS serves as a diagnostic testbed exposing fundamental limitations in academic image forensics.
- Abstract(参考訳): 我々はAI生成学術画像の法医学的分析を評価するための総合的なベンチマークであるAEGISを紹介する。
既存のベンチマークと比較すると、AEGISは3つの主要な進歩を特徴付けている:(1)ドメイン特化複雑性:39の微細なサブタイプを持つ7つの学術カテゴリをカバーし、GPT-5.1でさえ48.80%に到達し、専門家モデルも48.80%に制限された局所化精度(IoU 30.09%)を達成している。
AEGISは25のMLLM、9つのエキスパートモデル、および1つの統合マルチモーダル理解および生成モデルを評価することにより、学術画像法医学の基本的限界を明らかにする診断テストベッドとして機能する。
関連論文リスト
- Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation [51.897472694590356]
Surg-R1は4段階のパイプラインで訓練された階層的推論によってギャップに対処する手術的視覚言語モデルである。
提案手法では,(1)知覚的根拠,関係理解,文脈的推論に外科的解釈を分解する3段階の推論階層,(2)320,000の推論ペアを持つ最大の外科的チェーン・オブ・シークエンス・データセット,の3つの重要な貢献を紹介する。
論文 参考訳(メタデータ) (2026-03-12T20:26:28Z) - How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study [5.740397289924559]
普遍的な勝者は存在せず、検出器のランキングはかなり不安定である。
我々の発見は、全能検出器のパラダイムに挑戦した。
論文 参考訳(メタデータ) (2026-02-08T04:36:13Z) - ForensicFormer: Hierarchical Multi-Scale Reasoning for Cross-Domain Image Forgery Detection [0.0]
ForensicFormerは階層的なフレームワークで、低レベルのアーティファクト検出、中レベルの境界解析、高レベルのセマンティック推論を統一する。
本手法は,従来の操作,GAN生成画像,拡散モデル出力にまたがる7種類のテストセットの平均精度を86.8%維持する。
論文 参考訳(メタデータ) (2026-01-12T04:29:36Z) - Benchmarking foundation models for hyperspectral image classification: Application to cereal crop type mapping [0.9407085421584646]
本研究は、ハイパースペクトル画像を用いた穀物作物マッピングの基礎モデル3つをベンチマークする。
成績は総合的精度(OA)、平均精度(AA)、F1スコアで測定した。
論文 参考訳(メタデータ) (2025-10-13T16:21:59Z) - Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs [33.80781505782195]
胸部X線写真における病理像の局所化能力について,2つの汎用大言語モデル (LLM) とドメイン固有モデル (MedGemma) を評価した。
GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)と放射線学ベンチマーク(80.1%)より低い。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に悩まされ, より頻度の低い予測が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:54:23Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。