論文の概要: Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks
- arxiv url: http://arxiv.org/abs/2207.14682v4
- Date: Fri, 3 May 2024 14:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:35:59.266193
- Title: Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks
- Title(参考訳): ニューラルネットワークによる非拘束音声スプライシング検出と位置推定に向けて
- Authors: Denise Moussa, Germans Hirsch, Christian Riess,
- Abstract要約: 同一人物の様々な音声サンプルを組み合わせることで、拘束フォージェリーを作成することができる。
オーディオスプライシングの既存の検出アルゴリズムは手作りの機能を使用し、特定の仮定を行う。
本研究では,検出とローカライゼーションをスプライシングするTransformer sequence-to-sequence (seq2seq) ネットワークを提案する。
- 参考スコア(独自算出の注目度): 6.570712059945705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Freely available and easy-to-use audio editing tools make it straightforward to perform audio splicing. Convincing forgeries can be created by combining various speech samples from the same person. Detection of such splices is important both in the public sector when considering misinformation, and in a legal context to verify the integrity of evidence. Unfortunately, most existing detection algorithms for audio splicing use handcrafted features and make specific assumptions. However, criminal investigators are often faced with audio samples from unconstrained sources with unknown characteristics, which raises the need for more generally applicable methods. With this work, we aim to take a first step towards unconstrained audio splicing detection to address this need. We simulate various attack scenarios in the form of post-processing operations that may disguise splicing. We propose a Transformer sequence-to-sequence (seq2seq) network for splicing detection and localization. Our extensive evaluation shows that the proposed method outperforms existing dedicated approaches for splicing detection [3, 10] as well as the general-purpose networks EfficientNet [28] and RegNet [25].
- Abstract(参考訳): 無料で使いやすいオーディオ編集ツールは、オーディオスプライシングを簡単に行うことができる。
同一人物の様々な音声サンプルを組み合わせることで、拘束フォージェリーを作成することができる。
このようなスプライスの検出は、誤情報を考慮する場合の公共部門と、証拠の完全性を検証するための法的文脈の両方において重要である。
残念なことに、既存のオーディオスプライシング検出アルゴリズムのほとんどは手作りの機能を使用し、特定の仮定を行う。
しかし、刑事捜査員は、不明な特徴を持つ制約のない情報源からの音声サンプルに直面することが多く、より一般的に適用可能な方法の必要性が高まっている。
本研究は,このニーズに対応するために,制約のない音声スプライシング検出に向けた第一歩を踏み出す。
我々は、スプライシングを偽装する可能性のある後処理操作の形で、様々な攻撃シナリオをシミュレートする。
本研究では,検出とローカライゼーションをスプライシングするTransformer sequence-to-sequence (seq2seq) ネットワークを提案する。
提案手法は,既存のスプライシング検出手法であるEfficientNet[28]とRegNet[25]よりも優れていることを示す。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Identifying Audio Adversarial Examples via Anomalous Pattern Detection [4.556497931273283]
音声処理システムに対する最近の敵攻撃の2つが、一部のノードにおいて、予測以上のアクティベーションをもたらすことを示す。
我々はこれらの攻撃を、良性サンプルの性能を低下させることなく、最大0.98のAUCで検出することができる。
論文 参考訳(メタデータ) (2020-02-13T12:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。