論文の概要: The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection
- arxiv url: http://arxiv.org/abs/2210.02746v1
- Date: Thu, 6 Oct 2022 08:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 18:06:02.591893
- Title: The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection
- Title(参考訳): the sound of silence: 合成音声検出における第1桁特徴の効率性
- Authors: Daniele Mari, Federica Latora, Simone Milani
- Abstract要約: 本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。
これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。
提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
- 参考スコア(独自算出の注目度): 11.52842516726486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent integration of generative neural strategies and audio processing
techniques have fostered the widespread of synthetic speech synthesis or
transformation algorithms. This capability proves to be harmful in many legal
and informative processes (news, biometric authentication, audio evidence in
courts, etc.). Thus, the development of efficient detection algorithms is both
crucial and challenging due to the heterogeneity of forgery techniques.
This work investigates the discriminative role of silenced parts in synthetic
speech detection and shows how first digit statistics extracted from MFCC
coefficients can efficiently enable a robust detection. The proposed procedure
is computationally-lightweight and effective on many different algorithms since
it does not rely on large neural detection architecture and obtains an accuracy
above 90\% in most of the classes of the ASVSpoof dataset.
- Abstract(参考訳): 最近の生成的ニューラル戦略と音声処理技術の統合は、合成音声合成や変換アルゴリズムの普及を促している。
この能力は多くの法的および情報的プロセス(ニュース、生体認証、裁判所における音声証拠など)において有害であることが証明される。
したがって、偽造技術の不均一性のため、効率的な検出アルゴリズムの開発は重要かつ困難である。
本研究では,合成音声検出におけるサイレント部分の識別的役割について検討し,mfcc係数から抽出した第1桁統計がロバスト検出に効果的に有効かを示す。
提案手法は,大規模なニューラル検出アーキテクチャに頼らず,ASVSpoofデータセットのほとんどのクラスにおいて90%以上の精度が得られるため,計算的に軽量であり,多くのアルゴリズムで有効である。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics [1.5184189132709105]
本稿では,異なる分類タスクとモデルアーキテクチャに対する加法的,乗法的,混合ノイズの影響について論じる。
本研究では,ロバスト性を測定するため,層固有のノイズを注入するウォーキングノイズ法を提案する。
我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。
論文 参考訳(メタデータ) (2022-12-20T17:09:08Z) - Characterizing and mitigating coherent errors in a trapped ion quantum
processor using hidden inverses [0.20315704654772418]
量子コンピューティングテストベッドは、量子ビットの小さな集合に対して高忠実な量子制御を示す。
これらのノイズの多い中間スケールデバイスは、デコヒーレンスの前に十分な数のシーケンシャルな操作をサポートすることができる。
これらのアルゴリズムの結果は不完全であるが、これらの不完全性は量子コンピュータのテストベッド開発をブートストラップするのに役立ちます。
論文 参考訳(メタデータ) (2022-05-27T20:35:24Z) - Using growth transform dynamical systems for spatio-temporal data
sonification [9.721342507747158]
有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。
本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。
本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
論文 参考訳(メタデータ) (2021-08-21T16:25:59Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。