論文の概要: Improving Generalization for AI-Synthesized Voice Detection
- arxiv url: http://arxiv.org/abs/2412.19279v1
- Date: Thu, 26 Dec 2024 16:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:23.531351
- Title: Improving Generalization for AI-Synthesized Voice Detection
- Title(参考訳): AI合成音声検出のための一般化の改善
- Authors: Hainan Ren, Lin Li, Chun-Hao Liu, Xin Wang, Shu Hu,
- Abstract要約: 本稿では,ボコーダに関連するドメインに依存しないアーティファクト特徴の抽出を目的とした,革新的なアンタングル化フレームワークを提案する。
我々は、平らなロスランドスケープにおけるモデル学習を強化し、最適化された解から逃れ、一般化を改善する。
- 参考スコア(独自算出の注目度): 15.927525206445813
- License:
- Abstract: AI-synthesized voice technology has the potential to create realistic human voices for beneficial applications, but it can also be misused for malicious purposes. While existing AI-synthesized voice detection models excel in intra-domain evaluation, they face challenges in generalizing across different domains, potentially becoming obsolete as new voice generators emerge. Current solutions use diverse data and advanced machine learning techniques (e.g., domain-invariant representation, self-supervised learning), but are limited by predefined vocoders and sensitivity to factors like background noise and speaker identity. In this work, we introduce an innovative disentanglement framework aimed at extracting domain-agnostic artifact features related to vocoders. Utilizing these features, we enhance model learning in a flat loss landscape, enabling escape from suboptimal solutions and improving generalization. Extensive experiments on benchmarks show our approach outperforms state-of-the-art methods, achieving up to 5.12% improvement in the equal error rate metric in intra-domain and 7.59% in cross-domain evaluations.
- Abstract(参考訳): AI合成音声技術は、有益なアプリケーションのために現実的な人間の声を作り出す可能性があるが、悪意のある目的のために誤用することもできる。
既存のAI合成音声検出モデルはドメイン内評価に優れているが、異なるドメインをまたがる一般化の課題に直面しており、新しい音声生成装置が出現するにつれて時代遅れになる可能性がある。
現在のソリューションでは、さまざまなデータと高度な機械学習技術(ドメイン不変表現、自己教師付き学習など)を使用しますが、事前に定義されたボコーダと、バックグラウンドノイズや話者識別といった要因に対する感度によって制限されています。
本稿では,ボコーダに関連するドメインに依存しないアーティファクト特徴の抽出を目的とした,革新的なアンタングル化フレームワークを提案する。
これらの特徴を利用して、フラットなロスランドスケープにおけるモデル学習を強化し、最適化された解から逃れ、一般化を改善する。
ベンチマーク実験により,本手法は最先端手法よりも優れており,ドメイン内における等価誤差率測定値が最大5.12%,ドメイン間評価が7.59%向上した。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - From Denoising Training to Test-Time Adaptation: Enhancing Domain
Generalization for Medical Image Segmentation [8.36463803956324]
本稿では,補助的な復号化デコーダを基本U-Netアーキテクチャに組み込んだ新しい手法であるDenoising Y-Netを提案する。
補助デコーダは、ドメインの一般化を促進するドメイン不変表現を増強し、デノナイジングトレーニングを実行することを目的としている。
そこで本研究では,Denoising Test Time Adaptation (DeTTA)を提案する。さらに, (i) モデルを対象領域にサンプル的に適応させ, (ii) ノイズ破損した入力に適応させる。
論文 参考訳(メタデータ) (2023-10-31T08:39:15Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Toward Cross-Domain Speech Recognition with End-to-End Models [18.637636841477]
本稿では,ハイブリッド音響モデルとニューラルエンド・ツー・エンドシステムの挙動の差異を実験的に検討する。
ハイブリッドモデルでは,音響条件が不一致な他ドメインから追加のトレーニングデータを供給しても,特定のドメインの性能は向上しないことを示す。
シーケンスベースの基準に最適化されたエンドツーエンドモデルは、多様なドメインのハイブリッドモデルよりも一般化されている。
論文 参考訳(メタデータ) (2020-03-09T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。