Fugu-MT 論文翻訳(概要): Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

論文の概要: Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

arxiv url: http://arxiv.org/abs/2602.21779v1
Date: Wed, 25 Feb 2026 10:54:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.803517
Title: Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models
Title（参考訳）: 静的アーティファクトを超えて - 視覚言語モデルにおけるビデオディープフェイク推論のための法医学的ベンチマーク
Authors: Zheyuan Gu, Qingsong Zhao, Yusong Wang, Zhaohong Huang, Xinqi Li, Cheng Yuan, Jiaowei Shao, Chi Zhang, Xuelong Li,
Abstract要約: 空間的アーティファクトを識別するディープフェイク検出のための現在のビジョン・ランゲージ・モデル(VLM)は、ビデオフォージェリーにおける時間的矛盾を見落としている。本稿では,時間的深度解析をマルチチョイスタスクとして定式化する大規模ベンチマークであるForensic Answer-Questioning (FAQ)を提案する。
参考スコア（独自算出の注目度）: 42.760056969811075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current Vision-Language Models (VLMs) for deepfake detection excel at identifying spatial artifacts but overlook a critical dimension: temporal inconsistencies in video forgeries. Adapting VLMs to reason about these dynamic cues remains a distinct challenge. To bridge this gap, we propose Forensic Answer-Questioning (FAQ), a large-scale benchmark that formulates temporal deepfake analysis as a multiple-choice task. FAQ introduces a three-level hierarchy to progressively evaluate and equip VLMs with forensic capabilities: (1) Facial Perception, testing the ability to identify static visual artifacts; (2) Temporal Deepfake Grounding, requiring the localization of dynamic forgery artifacts across frames; and (3) Forensic Reasoning, challenging models to synthesize evidence for final authenticity verdicts. We evaluate a range of VLMs on FAQ and generate a corresponding instruction-tuning set, FAQ-IT. Extensive experiments show that models fine-tuned on FAQ-IT achieve advanced performance on both in-domain and cross-dataset detection benchmarks. Ablation studies further validate the impact of our key design choices, confirming that FAQ is the driving force behind the temporal reasoning capabilities of these VLMs.
Abstract（参考訳）: 空間的アーティファクトを識別するディープフェイク検出のための現在のビジョン・ランゲージ・モデル(VLM)は、ビデオフォージェリーにおける時間的矛盾を見落としている。これらのダイナミックなキューをVLMに適応させることは、依然として明らかな課題である。このギャップを埋めるために、時間的深度解析を複数選択タスクとして定式化する大規模ベンチマークであるForensic Answer-Questioning (FAQ)を提案する。 FAQは,(1)顔の知覚,静的な視覚的アーティファクトの識別能力のテスト,(2)フレーム間の動的フォージェリーアーティファクトの局所化を必要とする時間的ディープフェイクグラウンド,(3)法医学的推論,そして,最終的な真正性判定の証拠を合成するための挑戦的モデル,という3段階の階層を導入している。 FAQ 上の VLM の範囲を評価し,それに対応する命令チューニングセット FAQ-IT を生成する。大規模な実験により、FAQ-IT上で微調整されたモデルでは、ドメイン内およびデータセット間の検出ベンチマークの両方で高度な性能が得られた。アブレーション研究は、我々の重要な設計選択の影響をさらに検証し、FAQがこれらのVLMの時間的推論能力の原動力であることを確認する。

関連論文リスト

[De|Re]constructing VLMs' Reasoning in Counting [2.1856941852799134]
制御された実験条件下での計数作業における7つの最先端ビジョンランゲージモデル(VLM)の推論技術について検討した。レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
論文参考訳（メタデータ） (2025-10-22T13:08:47Z)
A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T14:32:21Z)
VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。 VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2025-08-06T03:07:05Z)
LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文参考訳（メタデータ） (2025-06-12T08:27:24Z)
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文参考訳（メタデータ） (2025-04-13T08:28:13Z)
Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。 2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。 3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。