論文の概要: Leveraging large multimodal models for audio-video deepfake detection: a pilot study
- arxiv url: http://arxiv.org/abs/2602.23393v1
- Date: Wed, 25 Feb 2026 04:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.068334
- Title: Leveraging large multimodal models for audio-video deepfake detection: a pilot study
- Title(参考訳): オーディオ・ビデオ・ディープフェイク検出のための大規模マルチモーダルモデルの活用:パイロット実験
- Authors: Songjun Cao, Yuqi Li, Yunpeng Luo, Jianjun Yin, Long Ma,
- Abstract要約: AV-LMMDetectは、教師付き微調整(SFT)大型マルチモーダルモデルで、AVDを誘導するye/no分類として、"このビデオは本物か偽なのか?
Qwen 2.5 Omni上に構築され、ディープフェイク検出のためにオーディオストリームとビジュアルストリームを共同で分析し、軽量なLoRAアライメントとオーディオ-ビジュアルエンコーダフルチューニングの2段階でトレーニングされている。
FakeAVCeleb と Mavos-DD では、AV-LMMDetect が以前の手法にマッチしたり、超えたりして、Mavos-DD データセットに新しい技術状態を設定する。
- 参考スコア(独自算出の注目度): 20.17103408581687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual deepfake detection (AVD) is increasingly important as modern generators can fabricate convincing speech and video. Most current multimodal detectors are small, task-specific models: they work well on curated tests but scale poorly and generalize weakly across domains. We introduce AV-LMMDetect, a supervised fine-tuned (SFT) large multimodal model that casts AVD as a prompted yes/no classification - "Is this video real or fake?". Built on Qwen 2.5 Omni, it jointly analyzes audio and visual streams for deepfake detection and is trained in two stages: lightweight LoRA alignment followed by audio-visual encoder full fine-tuning. On FakeAVCeleb and Mavos-DD, AV-LMMDetect matches or surpasses prior methods and sets a new state of the art on Mavos-DD datasets.
- Abstract(参考訳): オーディオ・ビジュアル・ディープフェイク検出(AVD)は、現代の発電機が説得力のある音声やビデオを作ることができるため、ますます重要になっている。
現在、多くのマルチモーダル検出器は小型でタスク固有のモデルであり、キュレートされたテストではうまく機能するが、スケールが悪く、ドメインをまたいで弱く一般化する。
AV-LMMDetectは教師付き微調整(SFT)大型マルチモーダルモデルで、AVDを「実物か偽物か?
Qwen 2.5 Omni上に構築され、ディープフェイク検出のためにオーディオストリームとビジュアルストリームを共同で分析し、軽量のLoRAアライメントとオーディオ-ビジュアルエンコーダフルチューニングの2段階でトレーニングされている。
FakeAVCeleb と Mavos-DD では、AV-LMMDetect が以前のメソッドにマッチしたり、超えたりして、Mavos-DD データセットに新しい最先端のデータセットを設定する。
関連論文リスト
- Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection [6.491407316650203]
VLM(Vision-Language Models)とMLLM(Multimodal Large Language Models)は、画像やビデオのディープフェイクの検出において、強力な一般化を示している。
我々は,音声深度検出のためのMLLMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2026-01-02T18:17:22Z) - ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection [49.14187862877009]
本稿では,ERFと音声-視覚融合を組み合わせた新しいディープフェイク検出モデルであるERF-BA-TFD+を提案する。
我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。
本研究では,DDL-AVデータセット上でのRF-BA-TFD+の評価を行った。
論文 参考訳(メタデータ) (2025-08-24T10:03:46Z) - Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文 参考訳(メタデータ) (2025-06-09T02:13:04Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。