論文の概要: BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset
- arxiv url: http://arxiv.org/abs/2505.10885v1
- Date: Fri, 16 May 2025 05:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.1799
- Title: BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset
- Title(参考訳): BanglaFake:特殊なベンガルディープフェイクオーディオデータセットの構築と評価
- Authors: Istiaq Ahmed Fahad, Kamruzzaman Asif, Sifat Sikder,
- Abstract要約: このデータセットは、12,260の実際の発話と13,260のディープフェイク発話を備えたBengali Deepfake Audioデータセットである。
合成音声は、SOTA Text-to-Speech(TTS)モデルを用いて生成され、高い自然性と品質が保証される。
30の母語話者の平均オピニオンスコア(MOS)は、3.40(自然性)と4.01(知性)のロバストMOSを示している
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake audio detection is challenging for low-resource languages like Bengali due to limited datasets and subtle acoustic features. To address this, we introduce BangalFake, a Bengali Deepfake Audio Dataset with 12,260 real and 13,260 deepfake utterances. Synthetic speech is generated using SOTA Text-to-Speech (TTS) models, ensuring high naturalness and quality. We evaluate the dataset through both qualitative and quantitative analyses. Mean Opinion Score (MOS) from 30 native speakers shows Robust-MOS of 3.40 (naturalness) and 4.01 (intelligibility). t-SNE visualization of MFCCs highlights real vs. fake differentiation challenges. This dataset serves as a crucial resource for advancing deepfake detection in Bengali, addressing the limitations of low-resource language research.
- Abstract(参考訳): データセットの制限と微妙な音響的特徴のため、Bengaliのような低リソース言語では、ディープフェイクオーディオ検出が難しい。
これを解決するために、Bengali Deepfake Audio DatasetであるBangalFakeを紹介した。
合成音声は、SOTA Text-to-Speech(TTS)モデルを用いて生成され、高い自然性と品質が保証される。
定性分析と定量的解析の両方を通してデータセットを評価する。
30のネイティブスピーカーによる平均オピニオンスコア(MOS)は、3.40(自然性)と4.01(知性)のロバスト・MOSを示している。
t-SNEによるMFCCの可視化は、現実と偽の差別化の課題を強調している。
このデータセットは、ベンガルのディープフェイク検出を進める上で重要なリソースとなり、低リソース言語研究の限界に対処する。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning [0.0]
我々は,サンスクリットにおける自然音声を低資源環境下で合成するために,限られたサンスクリットデータを用いた英語事前学習型タコトロン2モデルを微調整した。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
論文 参考訳(メタデータ) (2022-12-07T10:15:34Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。