論文の概要: Training-Free Multimodal Deepfake Detection via Graph Reasoning
- arxiv url: http://arxiv.org/abs/2509.21774v1
- Date: Fri, 26 Sep 2025 02:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.126321
- Title: Training-Free Multimodal Deepfake Detection via Graph Reasoning
- Title(参考訳): グラフ推論による学習不要なマルチモーダルディープフェイク検出
- Authors: Yuxin Liu, Fei Wang, Kun Li, Yiqi Nie, Junjie Chen, Yanyan Wei, Zhangling Duan, Zhaohong Jia,
- Abstract要約: マルチモーダルディープフェイク検出(MDD)は、視覚的、テキスト的、聴覚的モダリティにまたがる操作を明らかにすることを目的としている。
我々はMDDのためのトレーニングフリーフレームワークであるGASP-ICL(Guid Adaptive Scorer and Propagation In-Context Learning)を提案する。
- 参考スコア(独自算出の注目度): 16.774618707890834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal deepfake detection (MDD) aims to uncover manipulations across visual, textual, and auditory modalities, thereby reinforcing the reliability of modern information systems. Although large vision-language models (LVLMs) exhibit strong multimodal reasoning, their effectiveness in MDD is limited by challenges in capturing subtle forgery cues, resolving cross-modal inconsistencies, and performing task-aligned retrieval. To this end, we propose Guided Adaptive Scorer and Propagation In-Context Learning (GASP-ICL), a training-free framework for MDD. GASP-ICL employs a pipeline to preserve semantic relevance while injecting task-aware knowledge into LVLMs. We leverage an MDD-adapted feature extractor to retrieve aligned image-text pairs and build a candidate set. We further design the Graph-Structured Taylor Adaptive Scorer (GSTAS) to capture cross-sample relations and propagate query-aligned signals, producing discriminative exemplars. This enables precise selection of semantically aligned, task-relevant demonstrations, enhancing LVLMs for robust MDD. Experiments on four forgery types show that GASP-ICL surpasses strong baselines, delivering gains without LVLM fine-tuning.
- Abstract(参考訳): マルチモーダルディープフェイク検出(MDD)は、視覚的、テキスト的、聴覚的モダリティ間の操作を明らかにすることを目的としており、現代の情報システムの信頼性を高めることを目的としている。
大規模視覚言語モデル(LVLM)は、強いマルチモーダル推論を示すが、MDDにおけるそれらの有効性は、微妙な偽造の手がかりを捉え、異質な不整合を解消し、タスク整合検索を行う際の課題によって制限される。
この目的のために,MDDのトレーニング不要フレームワークであるGASP-ICL(Guid Adaptive Scorer and Propagation In-Context Learning)を提案する。
GASP-ICLは、LVLMにタスク認識知識を注入しながら意味的関連性を維持するパイプラインを使用する。
我々はMDDに適応した特徴抽出器を利用して、一致した画像テキストペアを検索し、候補セットを構築する。
さらに、グラフ構造を持つTaylor Adaptive Scorer (GSTAS) を設計し、クロスサンプル関係を捕捉し、クエリ整合信号を伝達し、識別可能な例を生成する。
これにより、意味的に整合したタスク関連デモの正確な選択が可能になり、堅牢なMDDのためのLVLMが強化される。
4つの偽装型の実験により、GASP-ICLは強力なベースラインを超え、LVLMの微調整なしでゲインを提供することが示された。
関連論文リスト
- Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。
既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。
記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文 参考訳(メタデータ) (2025-07-09T07:55:25Z) - Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.06363342414397]
タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:06:18Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。