論文の概要: REVEAL: Reference-Grounded Reasoning for Multimodal Manipulation Detection
- arxiv url: http://arxiv.org/abs/2605.28459v1
- Date: Wed, 27 May 2026 13:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.073028
- Title: REVEAL: Reference-Grounded Reasoning for Multimodal Manipulation Detection
- Title(参考訳): REVEAL:マルチモーダルマニピュレーション検出のための参照グラウンド推論
- Authors: Jun Zhou, Bingwen Hu, Yaxiong Wang, Zhedong Zheng, Yongzhen Wang, Yuchen Zhang, Ping Liu,
- Abstract要約: マルチモーダル操作検出は、偽画像のペアを同時に識別し、改ざんした領域をローカライズすることを目的としている。
人間の比較推論に触発されて、我々はこのタスクを基準基底検証問題として再検討する。
本稿では,この比較パラダイム用に明示的に設計されたフレームワークであるREVEALを提案する。
- 参考スコア(独自算出の注目度): 33.33464433821003
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal manipulation detection aims to simultaneously identify forged image--text pairs and localize tampered regions, yet existing methods typically rely on memorizing isolated artifacts and struggle with imperceptible manipulation traces or domain shifts. Inspired by human comparative reasoning, we reformulate this task as a reference-grounded verification problem, where authenticity is assessed by comparing a query against retrieved authentic evidence. We propose REVEAL Reference-Enabled Verification for Evidence Analysis and Localization), a framework explicitly designed for this comparative paradigm. To support this paradigm, we construct a large-scale reference library comprising 170K authentic news image--text pairs featuring over 40K public figures. Technically, REVEAL employs a difference-aware fusion mechanism to capture fine-grained discrepancies between the query and retrieved evidence. Furthermore, we introduce a task-decoupled Mixture-of-Experts (MoE) architecture to jointly execute instance-level detection and fine-grained grounding, effectively mitigating optimization conflicts between these heterogeneous objectives. Extensive experiments demonstrate that REVEAL significantly outperforms state-of-the-art methods, and notably enables \emph{training-free domain adaptation} by simply updating the reference library, offering a robust and practical solution for detecting evolving misinformation. Code is available at https://anonymous.4open.science/r/REVEAL-Reference-A006.
- Abstract(参考訳): マルチモーダル操作検出は、偽造画像のペアを同時に識別し、改ざんされた領域をローカライズすることを目的としている。
人間の比較推論に触発されて、我々はこのタスクを基準基底検証問題として再構成し、検索された真正証拠に対するクエリを比較することにより、真正性を評価する。
本稿では,この比較パラダイムを明示的に設計したフレームワークであるREVEAL Reference-Enabled Verification for Evidence Analysis and Localizationを提案する。
このパラダイムをサポートするために、40万以上の公開人物を特徴とする170万件の真正ニュース画像とテキストペアからなる大規模リファレンスライブラリを構築した。
技術的には、REVEALは差認識融合機構を使用して、クエリと検索されたエビデンスの間の微妙な不一致をキャプチャする。
さらに,タスク分離型Mixture-of-Experts(MoE)アーキテクチャを導入し,インスタンスレベルの検出ときめ細かなグラウンド化を共同で実行し,これらの異種目的間の最適化競合を効果的に緩和する。
広範な実験により、REVEALは最先端の手法よりも優れており、特に参照ライブラリを更新することで、進化する誤情報を検出するための堅牢で実用的なソリューションを提供することにより、'emph{training-free domain adaptation'を可能にすることが示されている。
コードはhttps://anonymous.4open.science/r/REVEAL-Reference-A006で公開されている。
関連論文リスト
- RW-Post: Auditable Evidence-Grounded Multimodal Fact-Checking in the Wild [9.55806677152407]
RW-Postは、実世界のマルチモーダルなファクトチェックのための、ポストアラインなtextbftext-imageベンチマークである。
RW-Postは、クローズドブック、エビデンスバウンド、オープンウェブレジーム間の制御評価をサポートする。
論文 参考訳(メタデータ) (2026-05-11T11:04:04Z) - The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment [15.520850734569564]
我々は,IMLタスクを証拠の対決とみなす法廷スタイルのIMLフレームワークを提案する。
我々は,不確実な地域で戦略的再推論と改良を行う強化学習モデルを開発した。
実験結果から,本モデルはSOTA IML法と比較して平均性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-04-16T07:09:59Z) - RTD-Guard: A Black-Box Textual Adversarial Detection Framework via Replacement Token Detection [9.898508403320438]
本稿では,テキストの逆転を検知する新しいブラックボックスフレームワークRTD-Guardを紹介する。
我々の重要な洞察は、敵攻撃における単語置換摂動は、置換トークン検出識別器が識別するために事前訓練されている「置換トークン」によく似ているということである。
プロセス全体では、敵データ、モデルチューニング、内部モデルアクセスは必要とせず、2つのブラックボックスクエリのみを使用する。
論文 参考訳(メタデータ) (2026-03-13T02:30:56Z) - FakeRadar: Probing Forgery Outliers to Detect Unknown Deepfake Videos [56.782373316571444]
本稿では,新しいディープフェイクビデオ検出フレームワークであるFakeRadarを提案する。
FakeRadarは、現実世界のシナリオにおけるクロスドメインの一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-12-16T17:11:45Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization [49.71303998618939]
本稿では,意味論的推論と法科学的な分析を橋渡しするPropose-Rectifyフレームワークを提案する。
提案手法は,具体的技術実証により,初期セマンティックな提案が体系的に検証され,拡張されることを保証し,包括的検出精度と局所化精度を実現する。
論文 参考訳(メタデータ) (2025-08-25T12:43:53Z) - Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。
より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。
提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文 参考訳(メタデータ) (2023-11-19T09:41:10Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。