論文の概要: CORE: Conflict-Oriented Reasoning for General Multimodal Manipulation Detection
- arxiv url: http://arxiv.org/abs/2606.03066v1
- Date: Tue, 02 Jun 2026 02:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.708724
- Title: CORE: Conflict-Oriented Reasoning for General Multimodal Manipulation Detection
- Title(参考訳): CORE: 汎用マルチモーダルマニピュレーション検出のための競合指向推論
- Authors: Jinjie Shen, Yaxiong Wang, Yujiao Wu, Lechao Cheng, Tianrui Hui, Nan Pu, Zhihui Li, Zhun Zhong,
- Abstract要約: ジェネレーティブAIは、マルチモーダルなフェイクニュースをますます現実的で広範にし、公共の信頼と社会的安定に深刻な脅威を与えている。
textbfConflict-textbfOriented textbfREasoning (textbfCORE) フレームワークを提案する。
COREは堅牢で一般化可能なコンフリクト検出を実現し、いくつかのサンプルやゼロショット設定で、目に見えない操作タイプに効果的かつ迅速に適応する。
- 参考スコア(独自算出の注目度): 56.64398465636452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of generative AI has made multimodal fake news increasingly realistic and pervasive, posing severe threats to public trust and social stability. Existing detection methods rely heavily on manipulation-specific models and large-scale labeled data, resulting in poor generalization to emerging manipulation types. We observed that the essence of manipulated misinformation lies in its intrinsic conflicts, \textbf{i.e.,} semantic or physical inconsistencies either across modalities or with common world knowledge. Inspired by this observation, we propose \textbf{C}onflict-\textbf{O}riented \textbf{RE}asoning (\textbf{CORE}) framework, an effective paradigm that learns to endows multimodal large language models (MLLMs) with explicit conflict-capturing capability. To this end, CORE first constructs the Conflict Attribution Corpus (CAC) with fine-grained annotations of conflict factors and sources, providing essential data support for subsequent conflict perception training. By performing conflict-oriented representation enhancement and reasoning based on CAC, CORE achieves robust and generalizable conflict detection, effectively and rapidly adapting to unseen manipulation types with a few samples or in even zero-shot settings. Extensive experiments demonstrate that CORE surpasses state-of-the-art models. The dataset and code are publicly available at https://github.com/shen8424/CORE.
- Abstract(参考訳): 生成AIの急速な普及により、マルチモーダルなフェイクニュースはますます現実的で広まり、公衆の信頼と社会的安定に深刻な脅威をもたらしている。
既存の検出方法は操作固有のモデルと大規模ラベル付きデータに大きく依存しているため、新たな操作タイプへの一般化は不十分である。
操作された誤情報の本質は、その本質的な紛争、つまり、意味的または物理的不整合が、モダリティを越えても、あるいは共通の世界知識と共にもたらされることを観察した。
本研究は,マルチモーダルな大言語モデル(MLLM)を明示的なコンフリクトキャプチャー能力で実現するための,効果的なパラダイムであるフレームワークである,‘textbf{C}onflict-\textbf{O}riented \textbf{RE}asoning(\textbf{CORE})を提案する。
この目的のために、COREはコンフリクト・アトリビューション・コーパス(CAC)をコンフリクト・ファクターとソースの細かいアノテーションで構築し、その後のコンフリクト・アトリビューション・トレーニングに不可欠なデータサポートを提供する。
CACに基づくコンフリクト指向表現の強化と推論を行うことで、COREは堅牢で一般化可能なコンフリクト検出を実現し、いくつかのサンプルやゼロショット設定で、目に見えない操作タイプに効果的かつ迅速に適応する。
大規模な実験では、COREが最先端のモデルを上回ることが示されている。
データセットとコードはhttps://github.com/shen8424/COREで公開されている。
関連論文リスト
- Mitigating Context-Memory Conflicts in LLMs through Dynamic Cognitive Reconciliation Decoding [51.242997961841276]
大規模言語モデルは事前学習を通じてパラメトリック知識を蓄積する。
知識の衝突は、時代遅れまたは誤ったパラメトリック知識が文脈における外部知識と衝突する際に起こる。
既存の手法は、対照的な復号化を通じて知識の衝突に対処するが、競合のないシナリオでは静的アプローチが出力分布を妨害する。
本稿では,動的認知和解復号法(DCRD)を提案する。
論文 参考訳(メタデータ) (2026-05-12T14:29:45Z) - Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction [49.03500737694832]
textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-05T04:04:59Z) - Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文 参考訳(メタデータ) (2026-02-16T07:10:44Z) - That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-21T22:27:56Z) - DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs [36.47787866482107]
Retrieval Augmented Generation (RAG) は、大規模言語モデルを拡張するための一般的なアプローチである。
本稿では,RAGにおける知識衝突型の新しい分類法を提案する。
次に、現実的なRAG設定で競合タイプの専門家アノテーションを備えた高品質なベンチマークであるCONFLICTSを紹介する。
論文 参考訳(メタデータ) (2025-06-10T06:52:57Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。