論文の概要: $\mathcal{A}LLM4ADD$: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2505.11079v1
- Date: Fri, 16 May 2025 10:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.660133
- Title: $\mathcal{A}LLM4ADD$: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection
- Title(参考訳): $\mathcal{A}LLM4ADD$: オーディオディープフェイク検出のための大規模言語モデルのロック解除
- Authors: Hao Gu, Jiangyan Yi, Chenglong Wang, Jianhua Tao, Zheng Lian, Jiayi He, Yong Ren, Yujie Chen, Zhengqi Wen,
- Abstract要約: オーディオ大言語モデル(ALLM)は様々なオーディオ処理タスクにおいて大きな進歩を遂げた。
ADDのためのALLM駆動フレームワークであるmathcalALLM4ADD$を提案する。
提案手法は,特にデータスカースシナリオにおいて,偽音声検出において優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 57.29614630309265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio deepfake detection (ADD) has grown increasingly important due to the rise of high-fidelity audio generative models and their potential for misuse. Given that audio large language models (ALLMs) have made significant progress in various audio processing tasks, a heuristic question arises: Can ALLMs be leveraged to solve ADD?. In this paper, we first conduct a comprehensive zero-shot evaluation of ALLMs on ADD, revealing their ineffectiveness in detecting fake audio. To enhance their performance, we propose $\mathcal{A}LLM4ADD$, an ALLM-driven framework for ADD. Specifically, we reformulate ADD task as an audio question answering problem, prompting the model with the question: "Is this audio fake or real?". We then perform supervised fine-tuning to enable the ALLM to assess the authenticity of query audio. Extensive experiments are conducted to demonstrate that our ALLM-based method can achieve superior performance in fake audio detection, particularly in data-scarce scenarios. As a pioneering study, we anticipate that this work will inspire the research community to leverage ALLMs to develop more effective ADD systems.
- Abstract(参考訳): オーディオディープフェイク検出(ADD)は、高忠実度音声生成モデルの台頭と誤用の可能性により、ますます重要になっている。
オーディオ大言語モデル(ALLM)が様々なオーディオ処理タスクで大きく進歩したことを考えると、ヒューリスティックな疑問が浮かび上がっている。
と。
本稿ではまず,ALMの総合的ゼロショット評価を行い,その非効率性を明らかにする。
それらの性能を向上させるために、ADDのためのALLM駆動フレームワークである$\mathcal{A}LLM4ADD$を提案する。
具体的には、ADDタスクを音声質問応答問題として再構成し、「この音声は偽物なのか、それとも本物なのか?」という疑問をモデルに促す。
次に、教師付き微調整を行い、ALLMがクエリ音声の真正性を評価する。
我々のALLMに基づく手法は、特にデータスカースシナリオにおいて、フェイクオーディオ検出において優れた性能を発揮することを実証するために、大規模な実験を行った。
先駆的な研究として、この研究が研究コミュニティにALMを活用してより効果的なADDシステムの開発を促すことを期待する。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? [40.38305757279412]
音声言語モデル(ALM)は、大規模言語モデルと音声ニューラルコーデックの発展により急速に進歩している。
本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。
その結果,最新のCMはALMに基づく音声を効果的に検出でき,ほとんどのALM試験条件下では0%の誤差率が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:45:34Z) - The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文 参考訳(メタデータ) (2024-05-08T08:28:40Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。