論文の概要: Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis
- arxiv url: http://arxiv.org/abs/2412.09032v2
- Date: Mon, 16 Dec 2024 07:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:53.734881
- Title: Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis
- Title(参考訳): 音声Forensics:包括的合成音声データセットの構築と分析を目指して
- Authors: Zhoulin Ji, Chenhao Lin, Hang Wang, Chao Shen,
- Abstract要約: 本稿では,音声サンプルの真正性,合成性,部分的偽造性を広範囲に網羅し,音声・フォレンジスデータセットを提案する。
我々はまた、認証検出、複数の偽セグメントのローカライゼーション、アルゴリズム認識を同時に行うことを目的とした、TEST(TEmporal Speech LocalizaTion Network)を提案する。
平均mAPは83.55%,EERは5.25%である。
- 参考スコア(独自算出の注目度): 21.245160899212774
- License:
- Abstract: Detecting synthetic from real speech is increasingly crucial due to the risks of misinformation and identity impersonation. While various datasets for synthetic speech analysis have been developed, they often focus on specific areas, limiting their utility for comprehensive research. To fill this gap, we propose the Speech-Forensics dataset by extensively covering authentic, synthetic, and partially forged speech samples that include multiple segments synthesized by different high-quality algorithms. Moreover, we propose a TEmporal Speech LocalizaTion network, called TEST, aiming at simultaneously performing authenticity detection, multiple fake segments localization, and synthesis algorithms recognition, without any complex post-processing. TEST effectively integrates LSTM and Transformer to extract more powerful temporal speech representations and utilizes dense prediction on multi-scale pyramid features to estimate the synthetic spans. Our model achieves an average mAP of 83.55% and an EER of 5.25% at the utterance level. At the segment level, it attains an EER of 1.07% and a 92.19% F1 score. These results highlight the model's robust capability for a comprehensive analysis of synthetic speech, offering a promising avenue for future research and practical applications in this field.
- Abstract(参考訳): 誤情報や身元偽造のリスクから、実際の音声から合成を検出できることがますます重要になっている。
合成音声分析のための様々なデータセットが開発されているが、それらはしばしば特定の領域に焦点を当て、包括的な研究のために有用性を制限している。
このギャップを埋めるために、異なる高品質のアルゴリズムで合成された複数のセグメントを含む、真正、合成、および部分的に偽造された音声サンプルを広範囲にカバーし、音声・フォレンジスデータセットを提案する。
さらに,認証検出,複数の偽セグメントのローカライゼーション,合成アルゴリズムの認識を,複雑な後処理を伴わずに同時に行うことを目的とした,TEST(Temporal Speech LocalizaTion Network)を提案する。
TESTはLSTMとTransformerを効果的に統合し、より強力な時間的音声表現を抽出し、多スケールのピラミッド特徴の密度予測を利用して合成スパンを推定する。
平均mAPは83.55%,EERは5.25%である。
セグメンテーションレベルでは、EERは1.07%、F1スコアは92.19%である。
これらの結果は、合成音声の包括的分析のためのモデルの堅牢性を強調し、この分野での将来の研究と実践への道のりを提供する。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection [11.52842516726486]
本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。
これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。
提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
論文 参考訳(メタデータ) (2022-10-06T08:31:21Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Using growth transform dynamical systems for spatio-temporal data
sonification [9.721342507747158]
有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。
本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。
本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
論文 参考訳(メタデータ) (2021-08-21T16:25:59Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。