論文の概要: Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2601.23066v1
- Date: Fri, 30 Jan 2026 15:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.523919
- Title: Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection
- Title(参考訳): 音声ディープフェイク検出のためのLLMの音響的エビデンス知覚に向けて
- Authors: Xiaoxuan Guo, Yuankun Xie, Haonan Cheng, Jiayi Zhou, Jian Liu, Hengyan Huang, Long Ye, Qin Zhang,
- Abstract要約: 音声ディープフェイク検出(SDD)は、与えられた音声信号が本物か合成的に生成されたかを特定することに焦点を当てる。
既存の音声大言語モデル(LLM)ベースの手法は、しばしば意味論的に相関した手がかりに偏っている。
聴覚知覚強調音声大言語モデル(SDD-APALLM)を用いたSDDについて紹介する。
- 参考スコア(独自算出の注目度): 23.695892348165497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech deepfake detection (SDD) focuses on identifying whether a given speech signal is genuine or has been synthetically generated. Existing audio large language model (LLM)-based methods excel in content understanding; however, their predictions are often biased toward semantically correlated cues, which results in fine-grained acoustic artifacts being overlooked during the decisionmaking process. Consequently, fake speech with natural semantics can bypass detectors despite harboring subtle acoustic anomalies; this suggests that the challenge stems not from the absence of acoustic data, but from its inadequate accessibility when semantic-dominant reasoning prevails. To address this issue, we investigate SDD within the audio LLM paradigm and introduce SDD with Auditory Perception-enhanced Audio Large Language Model (SDD-APALLM), an acoustically enhanced framework designed to explicitly expose fine-grained time-frequency evidence as accessible acoustic cues. By combining raw audio with structured spectrograms, the proposed framework empowers audio LLMs to more effectively capture subtle acoustic inconsistencies without compromising their semantic understanding. Experimental results indicate consistent gains in detection accuracy and robustness, especially in cases where semantic cues are misleading. Further analysis reveals that these improvements stem from a coordinated utilization of semantic and acoustic information, as opposed to simple modality aggregation.
- Abstract(参考訳): 音声ディープフェイク検出(SDD)は、与えられた音声信号が本物か合成的に生成されたかを特定することに焦点を当てる。
既存の音声大言語モデル(LLM)に基づく手法は、コンテンツ理解に優れるが、それらの予測は意味論的に相関した手がかりに偏りがちであり、その結果、決定過程中に微粒な音響アーチファクトが見過ごされる。
結果として、自然意味論による偽の音声は、微妙な音響異常を伴いながら検出をバイパスすることができるが、これは、音響データがないことではなく、意味優越的な推論が一般的である場合に、その不適切なアクセシビリティが原因であることを示している。
この問題に対処するため, 音声LLMパラダイム内のSDDを調査し, SDDを聴覚知覚強調音声大言語モデル(SDD-APALLM)で導入する。
提案フレームワークは、生音声と構造化スペクトログラムを組み合わせることにより、意味的理解を損なうことなく、より効果的に微妙な音響的不整合を捉えることができる。
実験結果から,検出精度とロバスト性,特に意味的手がかりが誤解を招く場合において,一貫した向上が認められた。
さらに分析したところ、これらの改善は、単純なモーダルアグリゲーションとは対照的に、意味情報と音響情報の協調的利用に由来することが明らかとなった。
関連論文リスト
- Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs [22.8529107367745]
音声編集は、グローバルな知覚自然性を維持しながら、元の発話に対してきめ細かいセグメントレベルの操作を行うことで意味的インバージョンを実現する。
既存の検出研究は主に、明示的なスプライシングアーティファクトによる手作業による音声編集に焦点を当てており、新たなエンドツーエンドの音声編集技術に対処するのに苦労している。
本稿では,音声質問応答タスクとして定式化することによって,音声編集検出とコンテンツローカライゼーションを統一する,最初の大規模モデルフレームワークPELMを提案する。
論文 参考訳(メタデータ) (2026-01-29T09:39:28Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features [0.353122873734926]
模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。
近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。
EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
論文 参考訳(メタデータ) (2024-09-09T19:47:57Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。