Fugu-MT 論文翻訳(概要): Can Visual Mamba Improve AI-Generated Image Detection? An In-Depth Investigation

論文の概要: Can Visual Mamba Improve AI-Generated Image Detection? An In-Depth Investigation

arxiv url: http://arxiv.org/abs/2605.14799v1
Date: Thu, 14 May 2026 13:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.834448
Title: Can Visual Mamba Improve AI-Generated Image Detection? An In-Depth Investigation
Title（参考訳）: 視覚マンバはAIによる画像検出を改善できるか?
Authors: Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Xianxun Zhu, Abdenour Hadid,
Abstract要約: 本研究では,AI生成画像検出のためのビジョン・マンバモデルの体系的評価と比較分析を行う。我々は、さまざまなデータセットや合成画像ソースにまたがる代表的CNN、VT、VLMベースの検出器に対して、複数のVision Mamba変種をベンチマークする。我々の発見は、AI生成された視覚コンテンツと真正性を見分けるように設計されたシステムにおけるコンポーネントとして、Vision Mambaの約束と現在の限界の両方を強調した。
参考スコア（独自算出の注目度）: 11.638406459109945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, computer vision has witnessed remarkable progress, fueled by the development of innovative architectures such as Convolutional Neural Networks (CNNs), Generative Adversarial Networks (GANs), diffusion-based architectures, Vision Transformers (ViTs), and, more recently, Vision-Language Models (VLMs). This progress has undeniably contributed to creating increasingly realistic and diverse visual content. However, such advancements in image generation also raise concerns about potential misuse in areas such as misinformation, identity theft, and threats to privacy and security. In parallel, Mamba-based architectures have emerged as versatile tools for a range of image analysis tasks, including classification, segmentation, medical imaging, object detection, and image restoration, in this rapidly evolving field. However, their potential for identifying AI-generated images remains relatively unexplored compared to established techniques. This study provides a systematic evaluation and comparative analysis of Vision Mamba models for AI-generated image detection. We benchmark multiple Vision Mamba variants against representative CNNs, ViTs, and VLM-based detectors across diverse datasets and synthetic image sources, focusing on key metrics such as accuracy, efficiency, and generalizability across diverse image types and generative models. Through this comprehensive analysis, we aim to elucidate Vision Mamba's strengths and limitations relative to established methodologies in terms of applicability, accuracy, and efficiency in detecting AI-generated images. Overall, our findings highlight both the promise and current limitations of Vision Mamba as a component in systems designed to distinguish authentic from AI-generated visual content. This research is crucial for enhancing detection in an age where distinguishing between real and AI-generated content is a major challenge.
Abstract（参考訳）: 近年、コンピュータビジョンは、畳み込みニューラルネットワーク(CNN)、GAN(Generative Adversarial Networks)、拡散型アーキテクチャ、ViT(Vision Transformer)、そして最近ではVLM(Vision-Language Models)といった革新的なアーキテクチャの発展によって、目覚ましい進歩を見せている。この進歩は、ますます現実的で多様なビジュアルコンテンツを生み出すのに、間違いなく貢献している。しかし、このような画像生成の進歩は、誤情報、アイデンティティ盗難、プライバシーとセキュリティに対する脅威などの分野での潜在的な誤用への懸念も引き起こす。並行して、マンバをベースとしたアーキテクチャは、この急速に進化する分野において、分類、セグメント化、医療画像、物体検出、画像復元など、さまざまな画像解析タスクのための汎用ツールとして登場した。しかし、AI生成画像を特定する可能性については、確立された技術と比較して、まだ明らかになっていない。本研究では,AI生成画像検出のためのビジョン・マンバモデルの体系的評価と比較分析を行う。我々は、さまざまなデータセットや合成画像ソースにまたがる代表的CNN、ViT、VLMベースの検出器に対して、複数のVision Mamba変異体をベンチマークし、様々な画像タイプや生成モデルにまたがる精度、効率、一般化可能性といった重要な指標に焦点を当てた。この包括的分析により、AI生成画像の検出に適用性、精度、効率の観点から、確立された方法論に対するビジョン・マンバの強みと限界を解明することを目指している。全体としては、AI生成された視覚コンテンツと真正性を見分けるように設計されたシステムにおけるコンポーネントとして、Vision Mambaの約束と現在の制限の両方を強調しています。この研究は、リアルコンテンツとAI生成コンテンツの区別が大きな課題となる時代における検出の強化に不可欠である。

関連論文リスト

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
Provenance of AI-Generated Images: A Vector Similarity and Blockchain-based Approach [3.632189127068905]
本稿では,AI生成画像と実(人間による)画像とを識別する組込み型AI画像検出フレームワークを提案する。提案手法は,AI生成画像が他のAI生成コンテンツに近接していることを示す仮説に基づいている。以上の結果から,中程度の摂動と高摂動が埋め込みシグネチャに最小限に影響を及ぼすことが確認された。
論文参考訳（メタデータ） (2025-10-15T00:49:56Z)
Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。 RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文参考訳（メタデータ） (2025-09-11T06:15:52Z)
FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。 FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。 FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-31T16:12:48Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Multi-Scale Transformer Architecture for Accurate Medical Image Classification [4.578375402082224]
本研究では,トランスフォーマーアーキテクチャを改良したAIによる皮膚病変分類アルゴリズムを提案する。マルチスケールな特徴融合機構の統合と自己認識プロセスの洗練により、このモデルはグローバルな特徴とローカルな特徴の両方を効果的に抽出する。 ISIC 2017データセットのパフォーマンス評価は、改良されたTransformerが既存のAIモデルを上回ることを示している。
論文参考訳（メタデータ） (2025-02-10T08:22:25Z)
D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文参考訳（メタデータ） (2024-12-23T15:08:08Z)
A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。 AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文参考訳（メタデータ） (2024-06-21T10:33:09Z)
ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文参考訳（メタデータ） (2024-04-03T18:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。