論文の概要: METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark
- arxiv url: http://arxiv.org/abs/2507.16206v1
- Date: Tue, 22 Jul 2025 03:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.954479
- Title: METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark
- Title(参考訳): METER:マルチモーダルなエビデンスに基づく思考と説明可能な推論 -- アルゴリズムとベンチマーク
- Authors: Xu Yang, Qi Zhang, Shuming Jiang, Yaowen Xu, Zhaofan Zou, Hao Sun, Xuelong Li,
- Abstract要約: 本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
- 参考スコア(独自算出の注目度): 48.78602579128459
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of generative AI, synthetic content across images, videos, and audio has become increasingly realistic, amplifying the risk of misinformation. Existing detection approaches predominantly focus on binary classification while lacking detailed and interpretable explanations of forgeries, which limits their applicability in safety-critical scenarios. Moreover, current methods often treat each modality separately, without a unified benchmark for cross-modal forgery detection and interpretation. To address these challenges, we introduce METER, a unified, multi-modal benchmark for interpretable forgery detection spanning images, videos, audio, and audio-visual content. Our dataset comprises four tracks, each requiring not only real-vs-fake classification but also evidence-chain-based explanations, including spatio-temporal localization, textual rationales, and forgery type tracing. Compared to prior benchmarks, METER offers broader modality coverage and richer interpretability metrics such as spatial/temporal IoU, multi-class tracing, and evidence consistency. We further propose a human-aligned, three-stage Chain-of-Thought (CoT) training strategy combining SFT, DPO, and a novel GRPO stage that integrates a human-aligned evaluator with CoT reasoning. We hope METER will serve as a standardized foundation for advancing generalizable and interpretable forgery detection in the era of generative media.
- Abstract(参考訳): 生成AIの急速な進歩により、画像、ビデオ、オーディオ間の合成コンテンツはますます現実的になり、誤報のリスクを増幅している。
既存の検出アプローチは、主に二項分類に重点を置いているが、偽造の詳細に解釈可能な説明が欠けているため、安全クリティカルなシナリオにおける適用性が制限されている。
さらに、現行の手法では、相互偽造検出と解釈のための統一されたベンチマークを使わずに、それぞれのモダリティを別々に扱うことが多い。
これらの課題に対処するために、画像、ビデオ、オーディオ、オーディオ・ビジュアルコンテンツにまたがる偽造検出を解釈可能なマルチモーダル・ベンチマークであるMETERを紹介した。
我々のデータセットは4つのトラックから構成されており、各トラックは実vs-fake分類だけでなく、時空間的局所化、テキストの合理性、偽型追跡など、エビデンス・チェーンに基づく説明も必要である。
以前のベンチマークと比較すると、METERはより広範なモダリティカバレッジと、空間的/時間的IoU、マルチクラストレース、エビデンス一貫性といったよりリッチな解釈可能性メトリクスを提供する。
SFT, DPO, GRPO と, CoT 推論と人間対応評価器を統合した新規な GRPO ステージを組み合わせた, 協調型3段階の CoT トレーニング戦略を提案する。
我々は、METERが、生成メディアの時代において、一般化可能かつ解釈可能な偽造検出を促進するための標準化された基盤として機能することを願っている。
関連論文リスト
- Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。
既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。
この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-30T10:26:04Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection [18.015012133043093]
我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
論文 参考訳(メタデータ) (2023-02-27T06:58:19Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。