論文の概要: QAMO: Quality-aware Multi-centroid One-class Learning For Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2509.20679v1
- Date: Thu, 25 Sep 2025 02:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.661177
- Title: QAMO: Quality-aware Multi-centroid One-class Learning For Speech Deepfake Detection
- Title(参考訳): QAMO:音声ディープフェイク検出のための品質認識型マルチセントロイドワンクラス学習
- Authors: Duc-Tuan Truong, Tianchi Liu, Ruijie Tao, Junjie Li, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: ワンクラスの学習は、単一のセントロイド周囲のボナ・フェイド音声のコンパクトな分布をモデル化することにより、目に見えないディープフェイク攻撃を検出することができる。
音声深度検出のための品質認識型マルチセントロイドワンクラス学習(QAMO:QAMO: Multi-Centroid One-Class Learning)を提案する。
- 参考スコア(独自算出の注目度): 60.515439134387755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that one-class learning can detect unseen deepfake attacks by modeling a compact distribution of bona fide speech around a single centroid. However, the single-centroid assumption can oversimplify the bona fide speech representation and overlook useful cues, such as speech quality, which reflects the naturalness of the speech. Speech quality can be easily obtained using existing speech quality assessment models that estimate it through Mean Opinion Score. In this paper, we propose QAMO: Quality-Aware Multi-Centroid One-Class Learning for speech deepfake detection. QAMO extends conventional one-class learning by introducing multiple quality-aware centroids. In QAMO, each centroid is optimized to represent a distinct speech quality subspaces, enabling better modeling of intra-class variability in bona fide speech. In addition, QAMO supports a multi-centroid ensemble scoring strategy, which improves decision thresholding and reduces the need for quality labels during inference. With two centroids to represent high- and low-quality speech, our proposed QAMO achieves an equal error rate of 5.09% in In-the-Wild dataset, outperforming previous one-class and quality-aware systems.
- Abstract(参考訳): 近年の研究では、単一セントロイド周辺でのボナ・フェイド音声のコンパクトな分布をモデル化することにより、一級学習が目に見えないディープフェイク攻撃を検出できることが示されている。
しかし、単一セントロイド仮定は、音声の自然な性質を反映した音声品質のような、ボナ・フェイドの表現を単純化し、有用な手がかりを見落とせる。
従来の音声品質評価モデルを用いて,平均オピニオンスコアで推定した音声品質を容易に得ることができる。
本稿では,音声深度検出のためのQAMO: Quality-Aware Multi-Centroid One-Class Learningを提案する。
QAMOは、複数の品質認識セントロイドを導入することで、従来の一級学習を拡張している。
QAMOでは、各セントロイドは、異なる音声品質のサブ空間を表現するように最適化され、ボナフッド音声におけるクラス内変動のより優れたモデリングを可能にする。
さらに、QAMOはマルチセントロイドアンサンブルスコア戦略をサポートし、判定しきい値を改善するとともに、推論時の品質ラベルの必要性を低減する。
提案したQAMOは,高音質と低音質の音声を表す2つのセントロイドを用いて,インザワイルドデータセットの5.09%の誤差率を達成し,従来の一級・品質認識システムより優れていた。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice
Anti-Spoofing [22.47152800242178]
アンチスプーフィングシステムは、自動話者検証(ASV)システムにとって重要な補助装置である。
本稿では,複数の話者を引き付けるために,ボナ・フェイド音声をクラスタリングする話者誘引型マルチセンター一級学習(SAMO)を提案する。
提案システムは,ASVspoof 2019 LA評価セットにおいて,EER(等誤差率)が38%向上し,既存の最先端シングルシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-11-04T19:31:33Z) - InQSS: a speech intelligibility assessment model using a multi-task
learning network [21.037410575414995]
本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。
得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
論文 参考訳(メタデータ) (2021-11-04T02:01:27Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。