論文の概要: AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs
- arxiv url: http://arxiv.org/abs/2511.21251v2
- Date: Mon, 01 Dec 2025 07:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 17:41:00.181136
- Title: AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs
- Title(参考訳): AVFakeBench:AV-LMMのための総合的なオーディオビデオ偽造検出ベンチマーク
- Authors: Shuhan Xia, Peipei Li, Xuannan Liu, Dongsen Zhang, Xinyu Guo, Zekun Li,
- Abstract要約: AVFakeBenchは,初の包括的オーディオビデオ偽造検出ベンチマークである。
AVFakeBenchには、慎重に12Kのオーディオビデオ質問が含まれており、7種類の偽造と4レベルのアノテーションを含んでいる。
AVFakeBench上での11の音声映像大言語モデル(AV-LMM)と2つの一般的な検出手法を評価する。
- 参考スコア(独自算出の注目度): 13.950397580491666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The threat of Audio-Video (AV) forgery is rapidly evolving beyond human-centric deepfakes to include more diverse manipulations across complex natural scenes. However, existing benchmarks are still confined to DeepFake-based forgeries and single-granularity annotations, thus failing to capture the diversity and complexity of real-world forgery scenarios. To address this, we introduce AVFakeBench, the first comprehensive audio-video forgery detection benchmark that spans rich forgery semantics across both human subject and general subject. AVFakeBench comprises 12K carefully curated audio-video questions, covering seven forgery types and four levels of annotations. To ensure high-quality and diverse forgeries, we propose a multi-stage hybrid forgery framework that integrates proprietary models for task planning with expert generative models for precise manipulation. The benchmark establishes a multi-task evaluation framework covering binary judgment, forgery types classification, forgery detail selection, and explanatory reasoning. We evaluate 11 Audio-Video Large Language Models (AV-LMMs) and 2 prevalent detection methods on AVFakeBench, demonstrating the potential of AV-LMMs as emerging forgery detectors while revealing their notable weaknesses in fine-grained perception and reasoning.
- Abstract(参考訳): オーディオビデオ(AV)の偽造の脅威は、人間中心のディープフェイクを超えて急速に進化し、複雑な自然のシーンにまたがるより多様な操作を含んでいる。
しかし、既存のベンチマークはDeepFakeベースの偽造と単一粒度アノテーションに制限されているため、現実の偽造シナリオの多様性と複雑さを捉えていない。
AVFakeBenchは、ヒトと一般の両方の被験者にまたがるリッチ・フォージェリー・セマンティクスにまたがる、初めての包括的オーディオ・ビデオ・フォージェリー検出ベンチマークである。
AVFakeBenchには、慎重に12Kのオーディオビデオ質問が含まれており、7種類の偽造と4レベルのアノテーションを含んでいる。
本稿では,タスク計画のためのプロプライエタリなモデルと,高精度な操作のための専門家生成モデルを統合する多段階ハイブリッドフォージェリフレームワークを提案する。
このベンチマークは、二項判定、偽型分類、偽詳細選択、説明的推論を含むマルチタスク評価フレームワークを確立する。
AVFakeBench上では,AV-LMM(Audio-Video Large Language Model)11,AV-LMM(AVFakeBench)2,AV-LMM(AVFakeBench)2,AV-LMM(AVFakeBench)2,AV-LMM(AVFakeBench)1,AV-LMM( AVFakeBench)1,AV-LMM(AVFakeBench)2,AV-LMM(AVFakeBench)2,AV-LMM(AVFakeBench)1,AV-LMM(AVFakeBench)1,AV -LMM(AVFakeBench)2,AV-LMM(AVFakeBench)2,AV-LMM(A
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models [53.55128042938329]
Forensics-Benchは、新しい偽検出評価ベンチマークスイートである。
63,292件の厳密にキュレートされたマルチチョイスの視覚的質問からなり、112件の独特な偽造検出をカバーしている。
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetの22のオープンソースLVLMと3つのプロプライエタリモデルについて徹底的な評価を行った。
論文 参考訳(メタデータ) (2025-03-19T09:21:44Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。