論文の概要: Faked Speech Detection with Zero Knowledge
- arxiv url: http://arxiv.org/abs/2209.12573v5
- Date: Sun, 3 Sep 2023 07:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 07:33:21.819407
- Title: Faked Speech Detection with Zero Knowledge
- Title(参考訳): 知識ゼロの偽音声認識
- Authors: Sahar Al Ajmi, Khizar Hayat, Alaa M. Al Obaidi, Naresh Kumar, Munaf
Najmuldeen and Baptiste Magnier
- Abstract要約: 本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
提案モデルは,大規模な音声データセットから抽出した重要な特徴の集合に基づいて訓練された。
比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。
- 参考スコア(独自算出の注目度): 2.5515299924109858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio is one of the most used ways of human communication, but at the same
time it can be easily misused to trick people. With the revolution of AI, the
related technologies are now accessible to almost everyone thus making it
simple for the criminals to commit crimes and forgeries. In this work, we
introduce a neural network method to develop a classifier that will blindly
classify an input audio as real or mimicked; the word 'blindly' refers to the
ability to detect mimicked audio without references or real sources. The
proposed model was trained on a set of important features extracted from a
large dataset of audios to get a classifier that was tested on the same set of
features from different audios. The data was extracted from two raw datasets,
especially composed for this work; an all English dataset and a mixed dataset
(Arabic plus English). These datasets have been made available, in raw form,
through GitHub for the use of the research community at
https://github.com/SaSs7/Dataset. For the purpose of comparison, the audios
were also classified through human inspection with the subjects being the
native speakers. The ensued results were interesting and exhibited formidable
accuracy.
- Abstract(参考訳): オーディオは人間のコミュニケーションの最もよく使われる方法の1つだが、同時に、人を騙すために簡単に誤用することができる。
aiの革命により、関連する技術はほとんどの人が利用できるようになり、犯罪者が犯罪や偽造を簡単に行えるようになった。
本研究では,入力音声を実または模倣音として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
提案モデルでは,大規模なオーディオデータセットから抽出した重要な特徴のセットに基づいて,異なるオーディオから同じ特徴のセットでテストされた分類器を学習した。
データは2つの生のデータセットから抽出され、特にこの研究のために構成された。
これらのデータセットはGitHubを通じて、https://github.com/SaSs7/Dataset.comのリサーチコミュニティで利用できる。
比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。
その後の結果は興味深いものであり、非常に正確であった。
関連論文リスト
- Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。