論文の概要: Process Over Outcome: Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection
- arxiv url: http://arxiv.org/abs/2603.01993v1
- Date: Mon, 02 Mar 2026 15:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.946299
- Title: Process Over Outcome: Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection
- Title(参考訳): プロセスオーバーアウト:汎用マルチモーダルマニピュレーション検出のための法医学推論の育成
- Authors: Yuchen Zhang, Yaxiong Wang, Kecheng Han, Yujiao Wu, Lianwei Wu, Li Zhu, Zhedong Zheng,
- Abstract要約: 一般化可能な検出には、明示的な法医学的推論を組み込む必要があると我々は主張する。
本稿では、学習結果の適合からプロセスモデリングへ移行する推論駆動型フレームワークであるREFORMを提案する。
実験により、Reformはより優れた一般化を伴う新しい最先端性能を確立することが示された。
- 参考スコア(独自算出の注目度): 30.754888975222542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative AI have significantly enhanced the realism of multimodal media manipulation, thereby posing substantial challenges to manipulation detection. Existing manipulation detection and grounding approaches predominantly focus on manipulation type classification under result-oriented supervision, which not only lacks interpretability but also tends to overfit superficial artifacts. In this paper, we argue that generalizable detection requires incorporating explicit forensic reasoning, rather than merely classifying a limited set of manipulation types, which fails to generalize to unseen manipulation patterns. To this end, we propose REFORM, a reasoning-driven framework that shifts learning from outcome fitting to process modeling. REFORM adopts a three-stage curriculum that first induces forensic rationales, then aligns reasoning with final judgments, and finally refines logical consistency via reinforcement learning. To support this paradigm, we introduce ROM, a large-scale dataset with rich reasoning annotations. Extensive experiments show that REFORM establishes new state-of-the-art performance with superior generalization, achieving 81.52% ACC on ROM, 76.65% ACC on DGM4, and 74.9 F1 on MMFakeBench.
- Abstract(参考訳): 生成AIの最近の進歩は、マルチモーダルメディア操作の現実性を大幅に向上させ、検出の操作に重大な課題をもたらしている。
既存の操作検出と接地アプローチは、主に結果指向の監督下での操作型分類に重点を置いており、解釈可能性に欠けるだけでなく、表面的なアーティファクトに過度に適合する傾向にある。
本稿では,一般化可能な検出には,限定的な操作型を分類するだけでなく,明示的な法医学的推論を組み込む必要があると論じる。
この目的のために我々は、学習を結果整合性からプロセスモデリングに移行する推論駆動型フレームワークであるREFORMを提案する。
ReFORMは3段階のカリキュラムを採用し、まずは法学の合理性を導き、次に推論を最終判断と整合させ、最後に強化学習を通じて論理的一貫性を洗練させる。
このパラダイムをサポートするために,豊富な推論アノテーションを持つ大規模データセットROMを導入する。
大規模な実験により、Reformは、ROM上で81.52% ACC、DGM4で76.65% ACC、MMFakeBenchで74.9 F1を達成し、より優れた一般化で新しい最先端のパフォーマンスを確立することが示されている。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Detecting Multilevel Manipulation from Limit Order Book via Cascaded Contrastive Representation Learning [4.11124360246468]
スポフィングは最も隠蔽的で詐欺的なTBM戦略の1つである。
これらのパターンは通常、リミット・オーダー・ブックの豊かで階層的な情報の中に隠されている。
ケースケード型LOB表現アーキテクチャと教師付きコントラスト学習を組み合わせた表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-23T16:57:32Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [20.686094849756937]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Towards to Robust and Generalized Medical Image Segmentation Framework [17.24628770042803]
本稿では,ロバストな一般化セグメンテーションのための新しい2段階フレームワークを提案する。
特に、教師なしTile-wise AutoEncoder(T-AE)事前学習アーキテクチャは、意味のある表現を学ぶために作成される。
複数の胸部X線データセットに対する肺分画実験を行った。
論文 参考訳(メタデータ) (2021-08-09T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。