論文の概要: Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech
- arxiv url: http://arxiv.org/abs/2505.15136v1
- Date: Wed, 21 May 2025 05:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.912308
- Title: Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech
- Title(参考訳): 微調整音声スペクトログラム変換器を用いたハイブリッド音声検出:AI-Human混合音声のデータセット駆動評価
- Authors: Kunyang Huang, Bin Hu,
- Abstract要約: 我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
- 参考スコア(独自算出の注目度): 3.195044561824979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of artificial intelligence (AI) has enabled sophisticated audio generation and voice cloning technologies, posing significant security risks for applications reliant on voice authentication. While existing datasets and models primarily focus on distinguishing between human and fully synthetic speech, real-world attacks often involve audio that combines both genuine and cloned segments. To address this gap, we construct a novel hybrid audio dataset incorporating human, AI-generated, cloned, and mixed audio samples. We further propose fine-tuned Audio Spectrogram Transformer (AST)-based models tailored for detecting these complex acoustic patterns. Extensive experiments demonstrate that our approach significantly outperforms existing baselines in mixed-audio detection, achieving 97\% classification accuracy. Our findings highlight the importance of hybrid datasets and tailored models in advancing the robustness of speech-based authentication systems.
- Abstract(参考訳): 人工知能(AI)の急速な進歩により、高度な音声生成と音声クローニング技術が実現され、音声認証に依存するアプリケーションに対して重大なセキュリティリスクが生じる。
既存のデータセットとモデルは、主に人間と完全に合成された音声の区別に焦点を当てているが、現実の攻撃には、真のセグメントとクローンされたセグメントの両方を組み合わせたオーディオが含まれることが多い。
このギャップに対処するため、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
さらに,これらの複雑な音響パターンを検出するために,AST(Audio Spectrogram Transformer)を用いた微調整モデルを提案する。
広汎な実験により,本手法は混合音響検出において既存のベースラインを著しく上回り,97 %の分類精度が得られた。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Contrastive Learning from Synthetic Audio Doppelgängers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成される合成データへのシフトにもかかわらず、本手法は、複数の標準的な音声分類タスクにおいて、実データよりも優れた、強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。