論文の概要: Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2601.00777v1
- Date: Fri, 02 Jan 2026 18:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.617956
- Title: Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection
- Title(参考訳): 音声ディープフェイク検出における多モード大言語モデルの適用可能性の検討
- Authors: Akanksha Chuchra, Shukesh Reddy, Sudeepta Mishra, Abhijit Das, Abhinav Dhall,
- Abstract要約: VLM(Vision-Language Models)とMLLM(Multimodal Large Language Models)は、画像やビデオのディープフェイクの検出において、強力な一般化を示している。
我々は,音声深度検出のためのMLLMの可能性を探究することを目的としている。
- 参考スコア(独自算出の注目度): 6.491407316650203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) and Multimodal Large Language Models (MLLMs) have shown strong generalisation in detecting image and video deepfakes, their use for audio deepfake detection remains largely unexplored. In this work, we aim to explore the potential of MLLMs for audio deepfake detection. Combining audio inputs with a range of text prompts as queries to find out the viability of MLLMs to learn robust representations across modalities for audio deepfake detection. Therefore, we attempt to explore text-aware and context-rich, question-answer based prompts with binary decisions. We hypothesise that such a feature-guided reasoning will help in facilitating deeper multimodal understanding and enable robust feature learning for audio deepfake detection. We evaluate the performance of two MLLMs, Qwen2-Audio-7B-Instruct and SALMONN, in two evaluation modes: (a) zero-shot and (b) fine-tuned. Our experiments demonstrate that combining audio with a multi-prompt approach could be a viable way forward for audio deepfake detection. Our experiments show that the models perform poorly without task-specific training and struggle to generalise to out-of-domain data. However, they achieve good performance on in-domain data with minimal supervision, indicating promising potential for audio deepfake detection.
- Abstract(参考訳): Vision-Language Models (VLM) とMultimodal Large Language Models (MLLM) は画像やビデオのディープフェイクの検出において強力な一般化を示しているが、オーディオのディープフェイク検出には未解明のままである。
本研究では,音声ディープフェイク検出のためのMLLMの可能性を探究する。
音声入力と様々なテキストプロンプトをクエリとして組み合わせることで、MLLMがオーディオディープフェイク検出のためのモーダル性を越えて堅牢な表現を学習する可能性を調べる。
そこで本研究では,テキスト認識とコンテキストに富んだ質問応答に基づくプロンプトを二項決定を用いて探索する。
このような特徴誘導推論は、より深いマルチモーダル理解を促進し、オーディオディープフェイク検出のための堅牢な特徴学習を可能にすると仮定する。
2つのMLLM(Qwen2-Audio-7B-InstructとSALMONN)の性能を2つの評価モードで評価する。
(a)ゼロショット、
(b)微調整。
実験により、音声とマルチプロンプトアプローチを組み合わせることは、オーディオディープフェイク検出に有効な方法であることが示された。
実験の結果,タスク固有のトレーニングを伴わずに,ドメイン外データへの一般化に苦慮していることがわかった。
しかし、最小限の監督でドメイン内のデータに対して優れた性能を達成し、オーディオディープフェイク検出の可能性を示している。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - KLASSify to Verify: Audio-Visual Deepfake Detection Using SSL-based Audio and Handcrafted Visual Features [1.488627850405606]
AV-Deepfake1M 2025チャレンジに対するマルチモーダルアプローチを提案する。
視覚的モダリティには手作りの機能を活用して解釈性と適応性を向上させる。
音声のモダリティには、グラフアテンションネットワークと組み合わせた自己教師付き学習バックボーンを適用し、リッチな音声表現をキャプチャする。
当社のアプローチでは、レジリエンスと潜在的な解釈可能性に重点を置いて、パフォーマンスと実世界のデプロイメントのバランスを取ります。
論文 参考訳(メタデータ) (2025-08-10T13:29:08Z) - Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文 参考訳(メタデータ) (2025-06-09T02:13:04Z) - Can Multi-modal (reasoning) LLMs work as deepfake detectors? [6.36797761822772]
我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。
以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。
本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
論文 参考訳(メタデータ) (2025-03-25T21:47:29Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - How Good is ChatGPT at Audiovisual Deepfake Detection: A Comparative Study of ChatGPT, AI Models and Human Perception [30.295294657519165]
裸眼で検出し難いことや、一助深層学習に基づく偽造検出手法を用いることで、オーディオ視覚操作を含むマルチモーダルディープフェイクが増加する脅威である。
本研究では,大規模言語モデル(LLM)の視覚的・聴覚的アーティファクトの特定と評価を行う能力について検討した。
論文 参考訳(メタデータ) (2024-11-14T08:07:02Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。