論文の概要: SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection
- arxiv url: http://arxiv.org/abs/2210.06105v1
- Date: Wed, 12 Oct 2022 11:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 16:15:09.557792
- Title: SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection
- Title(参考訳): SpecRNet: より高速でアクセシブルなオーディオディープフェイク検出を目指す
- Authors: Piotr Kawa, Marcin Plata, Piotr Syga
- Abstract要約: SpecRNetは、高速な推論時間と低い計算要求を特徴とするニューラルネットワークアーキテクチャである。
我々のベンチマークは、オーディオサンプルを処理するのに最大40%の時間を要するSpecRNetがLCNNアーキテクチャに匹敵するパフォーマンスを提供することを示している。
- 参考スコア(独自算出の注目度): 0.4511923587827302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio DeepFakes are utterances generated with the use of deep neural
networks. They are highly misleading and pose a threat due to use in fake news,
impersonation, or extortion. In this work, we focus on increasing accessibility
to the audio DeepFake detection methods by providing SpecRNet, a neural network
architecture characterized by a quick inference time and low computational
requirements. Our benchmark shows that SpecRNet, requiring up to about 40% less
time to process an audio sample, provides performance comparable to LCNN
architecture - one of the best audio DeepFake detection models. Such a method
can not only be used by online multimedia services to verify a large bulk of
content uploaded daily but also, thanks to its low requirements, by average
citizens to evaluate materials on their devices. In addition, we provide
benchmarks in three unique settings that confirm the correctness of our model.
They reflect scenarios of low-resource datasets, detection on short utterances
and limited attacks benchmark in which we take a closer look at the influence
of particular attacks on given architectures.
- Abstract(参考訳): オーディオディープフェイク(Audio DeepFakes)は、ディープニューラルネットワークを使用した発話である。
彼らは非常に誤解を招き、フェイクニュース、偽造、またはゆがみで脅かされている。
本研究では,早い推論時間と少ない計算要求で特徴付けられるニューラルネットワークアーキテクチャであるspecrnetを提供することにより,オーディオディープフェイク検出手法へのアクセシビリティ向上に重点を置く。
我々のベンチマークでは、オーディオサンプルを処理するのに最大40%の時間を要するSpecRNetが、最高のオーディオDeepFake検出モデルであるLCNNアーキテクチャに匹敵するパフォーマンスを提供することを示している。
このような方法は、オンラインマルチメディアサービスによって毎日アップロードされる大量のコンテンツを検証するだけでなく、平均的な市民がデバイス上の資料を評価することの要件の低さから利用することができる。
さらに、モデルの正確性を確認する3つのユニークな設定でベンチマークを提供する。
低リソースデータセットのシナリオ、短い発話の検出、限定的な攻撃ベンチマークを反映して、特定の攻撃が特定のアーキテクチャに与える影響を詳しく調べる。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Edge-Detect: Edge-centric Network Intrusion Detection using Deep Neural
Network [0.0]
エッジノードは、Internet-of-Thingsエンドポイント上の複数のサイバー攻撃を検出するために不可欠である。
DLM技術を用いてエッジノードに対するDoS攻撃を検知する,軽量で高速かつ高精度なEdge-Detectモデルを開発した。
論文 参考訳(メタデータ) (2021-02-03T04:24:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Leveraging End-to-End Speech Recognition with Neural Architecture Search [0.0]
ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
論文 参考訳(メタデータ) (2019-12-11T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。