論文の概要: TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection
- arxiv url: http://arxiv.org/abs/2602.21716v1
- Date: Wed, 25 Feb 2026 09:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.77419
- Title: TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection
- Title(参考訳): TranX-Adapter:ロバストAI生成画像検出のためのMLLM内のブリッジアーティファクトとセマンティック
- Authors: Wenbin Wang, Yuge Huang, Jianqing Xu, Yue Yu, Jiangtao Yan, Shouhong Ding, Pan Zhou, Yong Luo,
- Abstract要約: テクスチャレベルのアーティファクトとセマンティックな特徴をマルチモーダルな言語モデル(MLLM)に組み込むことで、AIGI検出能力を向上することができる。
本稿では,タスク認識型Optimal-Transport Fusionを統合した軽量フュージョンアダプタTranX-Adapterを提案する。
いくつかの高度なMLLM上での標準AIGI検出ベンチマークの実験は、TranX-Adapterが一貫性と大幅な改善をもたらすことを示している。
- 参考スコア(独自算出の注目度): 70.42796551833946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in AI-generated image (AIGI) technology enable highly realistic synthesis, threatening public information integrity and security. Recent studies have demonstrated that incorporating texture-level artifact features alongside semantic features into multimodal large language models (MLLMs) can enhance their AIGI detection capability. However, our preliminary analyses reveal that artifact features exhibit high intra-feature similarity, leading to an almost uniform attention map after the softmax operation. This phenomenon causes attention dilution, thereby hindering effective fusion between semantic and artifact features. To overcome this limitation, we propose a lightweight fusion adapter, TranX-Adapter, which integrates a Task-aware Optimal-Transport Fusion that leverages the Jensen-Shannon divergence between artifact and semantic prediction probabilities as a cost matrix to transfer artifact information into semantic features, and an X-Fusion that employs cross-attention to transfer semantic information into artifact features. Experiments on standard AIGI detection benchmarks upon several advanced MLLMs, show that our TranX-Adapter brings consistent and significant improvements (up to +6% accuracy).
- Abstract(参考訳): AI生成画像(AIGI)技術の急速な進歩は、非常に現実的な合成を可能にし、公開情報の完全性とセキュリティを脅かす。
近年の研究では、テクスチャレベルのアーティファクトとセマンティックな特徴を多モーダルな言語モデル(MLLM)に組み込むことで、AIGI検出能力を向上することが示されている。
しかし, 予備解析の結果, 人工物の特徴は機能内類似度が高く, ソフトマックス手術後のほぼ均一な注意マップが得られた。
この現象は注意の希釈を引き起こすため、意味的特徴と人工物的特徴の効果的な融合を妨げる。
この制限を克服するため、我々は、アーティファクト情報からセマンティック特徴へ伝達するコストマトリックスとして、アーティファクトとセマンティック予測のジェンセン-シャノンのばらつきを利用したタスク認識の最適-トランスポートフュージョンを統合した軽量フュージョンアダプタであるTranX-Adapterと、セマンティック情報をアーティファクト特徴へ伝達するためのクロスアテンションを利用したX-フュージョンを提案する。
いくつかの高度なMLLM上での標準AIGI検出ベンチマークの実験は、TranX-Adapterが一貫性と大幅な改善(最大+6%の精度)をもたらすことを示している。
関連論文リスト
- See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis [17.896266572037348]
ArtiAgentは、リアルイメージとアーティファクトインジェクトイメージのペアを効率よく生成する。
実際の画像から実体やサブエンティティを認識する知覚エージェント、アーティファクト注入ツールを介してアーティファクトを導入する合成エージェント、合成アーティファクトをフィルタリングするキュレーションエージェントの3つからなる。
論文 参考訳(メタデータ) (2026-02-24T14:34:13Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。
大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。
本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。
さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文 参考訳(メタデータ) (2025-07-03T14:26:31Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。