論文の概要: Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs
- arxiv url: http://arxiv.org/abs/2603.17761v1
- Date: Wed, 18 Mar 2026 14:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.748027
- Title: Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs
- Title(参考訳): LVLMを用いたクロスドメイン画像深度検出のためのエビデンスパッキング
- Authors: Yuxin Liu, Fei Wang, Kun Li, Yiqi Nie, Junjie Chen, Zhangling Duan, Zhaohong Jia,
- Abstract要約: 画像全体の推論をエビデンス駆動推論に置き換える,学習不要なLVLMフレームワークを提案する。
SCEPは、操作キューを最もよく示す不審なパッチトークンのコンパクトなセットをマイニングする。
ビジョンエンコーダのCLSトークンをグローバル参照として使用し、クラスタパッチの機能をコヒーレントなグループに分割し、融合したメトリックでパッチをスコアする。
- 参考スコア(独自算出の注目度): 14.856226450226297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Deepfake Detection (IDD) separates manipulated images from authentic ones by spotting artifacts of synthesis or tampering. Although large vision-language models (LVLMs) offer strong image understanding, adapting them to IDD often demands costly fine-tuning and generalizes poorly to diverse, evolving manipulations. We propose the Semantic Consistent Evidence Pack (SCEP), a training-free LVLM framework that replaces whole-image inference with evidence-driven reasoning. SCEP mines a compact set of suspicious patch tokens that best reveal manipulation cues. It uses the vision encoder's CLS token as a global reference, clusters patch features into coherent groups, and scores patches with a fused metric combining CLS-guided semantic mismatch with frequency-and noise-based anomalies. To cover dispersed traces and avoid redundancy, SCEP samples a few high-confidence patches per cluster and applies grid-based NMS, producing an evidence pack that conditions a frozen LVLM for prediction. Experiments on diverse benchmarks show SCEP outperforms strong baselines without LVLM fine-tuning.
- Abstract(参考訳): Image Deepfake Detection (IDD)は、人工的な合成や改ざんによって、操作された画像と本物とを分離する。
大きな視覚言語モデル(LVLM)は強力なイメージ理解を提供するが、IDDに適応するためにはコストのかかる微調整が必要であり、多様で進化する操作には不十分である。
本研究では,全体像推論をエビデンス駆動推論に置き換えるトレーニングフリーなLVLMフレームワークであるセマンティック一貫性証拠パック(SCEP)を提案する。
SCEPは、操作キューを最もよく示す不審なパッチトークンのコンパクトなセットをマイニングする。
ビジョンエンコーダのCLSトークンをグローバル参照として使用し、クラスタパッチの特徴をコヒーレントグループに分割し、CLS誘導セマンティックミスマッチと周波数およびノイズベースの異常を組み合わせた融合メトリックでパッチをスコアする。
分散トレースをカバーし、冗長性を回避するため、SCEPはクラスタ毎にいくつかの高信頼パッチをサンプリングし、グリッドベースのNMSを適用し、予測のために凍結LVLMを条件とするエビデンスパックを生成する。
多様なベンチマークの実験では、SCEPはLVLMの微調整なしで強いベースラインを上回ります。
関連論文リスト
- Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection [53.789057575175065]
領域認識型prompt Augmentation(RAPTA)とAttention-Driven Multimodal Copy Detection(ADMCD)を示す。
RAPTAはオブジェクト検出器を使用して、正常な領域を見つけ、それらを意味論的に接地したプロンプトの変種に変換する。
ADMCDは、ローカルパッチ、グローバルセマンティック、テクスチャキューを軽量トランスフォーマーで集約し、融合表現を生成する。
実験により、RAPTAは高い合成品質を維持しながら過度な適合を減少させ、ADMCDはコピーを確実に検出し、単一モードの指標より優れることが示された。
論文 参考訳(メタデータ) (2026-03-13T15:16:27Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。
私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。
約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文 参考訳(メタデータ) (2025-05-26T03:12:49Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。