Fugu-MT 論文翻訳(概要): FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

論文の概要: FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

arxiv url: http://arxiv.org/abs/2602.18880v1
Date: Sat, 21 Feb 2026 15:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.372141
Title: FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model
Title（参考訳）: FOCA:マルチモーダル大言語モデルによる周波数指向クロスドメイン偽造検出, 局所化, 説明
Authors: Zhou Liu, Tonghua Su, Hongshi Zhang, Fuxiang Yang, Donglin Di, Yang Song, Lei Fan,
Abstract要約: FOCAは、RGB空間領域と周波数領域の両方の識別機能を統合した、大規模な言語モデルベースのフレームワークである。 FSE-Setは、さまざまな認証と改ざんされたイメージ、ピクセルレベルのマスク、デュアルドメインアノテーションを備えた大規模なデータセットである。
参考スコア（独自算出の注目度）: 11.08248067961235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in image tampering techniques, particularly generative models, pose significant challenges to media verification, digital forensics, and public trust. Existing image forgery detection and localization (IFDL) methods suffer from two key limitations: over-reliance on semantic content while neglecting textural cues, and limited interpretability of subtle low-level tampering traces. To address these issues, we propose FOCA, a multimodal large language model-based framework that integrates discriminative features from both the RGB spatial and frequency domains via a cross-attention fusion module. This design enables accurate forgery detection and localization while providing explicit, human-interpretable cross-domain explanations. We further introduce FSE-Set, a large-scale dataset with diverse authentic and tampered images, pixel-level masks, and dual-domain annotations. Extensive experiments show that FOCA outperforms state-of-the-art methods in detection performance and interpretability across both spatial and frequency domains.
Abstract（参考訳）: 画像改ざん技術の進歩、特に生成モデルは、メディア検証、デジタル法医学、公衆信頼に重大な課題をもたらす。既存の画像偽造検出・ローカライゼーション(IFDL)手法は,テクスチャ的手がかりを無視しながら意味的内容の過度な信頼と,微妙な低レベルのタンパリングトレースの解釈可能性の制限という,2つの重要な制限に悩まされている。これらの問題に対処するために,多モーダルな大規模言語モデルに基づくフレームワークFOCAを提案する。この設計は、明示的で解釈可能なクロスドメインの説明を提供しながら、正確な偽造検出と位置決めを可能にする。さらに、FSE-Setは、さまざまな認証と改ざんされた画像、ピクセルレベルのマスク、二重ドメインアノテーションを備えた大規模データセットである。広汎な実験により、FOCAは空間領域と周波数領域の両方にわたる検出性能と解釈可能性において最先端の手法より優れていることが示された。

関連論文リスト

M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization [0.8090496457850851]
近年,深層学習法は画素レベルのフォージェリーローカライゼーションにおいて高い精度を達成している。本稿では,これらの課題を克服するための新しいトランスフォーマー・エンコーダ・フレームワークであるM2SFormerを提案する。 M2SFormerはスキップ接続におけるマルチ周波数とマルチスケールの注意を統一し、グローバルコンテキストを活用して偽造品のキャプチャを改善する。
論文参考訳（メタデータ） (2025-06-26T01:06:57Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文参考訳（メタデータ） (2024-09-03T07:58:47Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。 FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文参考訳（メタデータ） (2024-07-23T15:07:52Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。 HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文参考訳（メタデータ） (2022-12-30T10:54:29Z)
MC-LCR: Multi-modal contrastive classification by locally correlated representations for effective face forgery detection [11.124150983521158]
局所的関連表現を用いたマルチモーダルコントラスト分類法を提案する。我々のMC-LCRは、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。我々は最先端の性能を達成し,本手法の堅牢性と一般化を実証する。
論文参考訳（メタデータ） (2021-10-07T09:24:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。