論文の概要: HM-Conformer: A Conformer-based audio deepfake detection system with
hierarchical pooling and multi-level classification token aggregation methods
- arxiv url: http://arxiv.org/abs/2309.08208v1
- Date: Fri, 15 Sep 2023 07:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:33:13.237946
- Title: HM-Conformer: A Conformer-based audio deepfake detection system with
hierarchical pooling and multi-level classification token aggregation methods
- Title(参考訳): HM-Conformer:階層プールとマルチレベル分類トークンアグリゲーション法を用いたコンフォーマに基づくオーディオディープフェイク検出システム
- Authors: Hyun-seo Shin, Jungwoo Heo, Ju-ho Kim, Chan-yeong Lim, Wonbin Kim, and
Ha-Jin Yu
- Abstract要約: HM-Conformerはシーケンス対シーケンスタスク用に設計されている。
様々なシーケンス長を処理し、それらを集約することで、スプーフィングエビデンスを効率的に検出することができる。
実験の結果、HM-Conformerは15.71%のEERを達成した。
- 参考スコア(独自算出の注目度): 34.83806360076228
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Audio deepfake detection (ADD) is the task of detecting spoofing attacks
generated by text-to-speech or voice conversion systems. Spoofing evidence,
which helps to distinguish between spoofed and bona-fide utterances, might
exist either locally or globally in the input features. To capture these, the
Conformer, which consists of Transformers and CNN, possesses a suitable
structure. However, since the Conformer was designed for sequence-to-sequence
tasks, its direct application to ADD tasks may be sub-optimal. To tackle this
limitation, we propose HM-Conformer by adopting two components: (1)
Hierarchical pooling method progressively reducing the sequence length to
eliminate duplicated information (2) Multi-level classification token
aggregation method utilizing classification tokens to gather information from
different blocks. Owing to these components, HM-Conformer can efficiently
detect spoofing evidence by processing various sequence lengths and aggregating
them. In experimental results on the ASVspoof 2021 Deepfake dataset,
HM-Conformer achieved a 15.71% EER, showing competitive performance compared to
recent systems.
- Abstract(参考訳): 音声ディープフェイク検出(Audio Deepfake Detection、ADD)は、音声や音声の音声変換システムによって発生する偽造攻撃を検出するタスクである。
スプーフとボナフッドの発話を区別するのに役立つスポーフエビデンス(Spofing evidence)は、入力機能にローカルまたはグローバルに存在する可能性がある。
これらをキャプチャするには、トランスフォーマーとcnnで構成されるコンフォーメータが適切な構造を持っている。
しかし、コンフォーマーはシーケンス・ツー・シーケンスタスク用に設計されているため、ADDタスクへの直接適用は準最適かもしれない。
この制限に対処するため,(1)階層型プーリング法によりシーケンス長を段階的に削減して重複情報を排除し,(2)分類トークンを利用して異なるブロックから情報を収集する多層分類トークン集約法を提案する。
これらのコンポーネントにより、HM-Conformerは、様々なシーケンス長を処理し、それらを集約することで、スプーフィングエビデンスを効率的に検出できる。
ASVspoof 2021 Deepfakeデータセットの実験結果において、HM-Conformerは15.71%のEERを達成した。
関連論文リスト
- Dual DETRs for Multi-Label Temporal Action Detection [46.05173000284639]
時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
我々は、インスタンスレベルとバウンダリレベルの両方からのアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-31T11:43:39Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。