Fugu-MT 論文翻訳(概要): Assessing the Impact of Speaker Identity in Speech Spoofing Detection

論文の概要: Assessing the Impact of Speaker Identity in Speech Spoofing Detection

arxiv url: http://arxiv.org/abs/2602.20805v1
Date: Tue, 24 Feb 2026 11:45:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.732103
Title: Assessing the Impact of Speaker Identity in Speech Spoofing Detection
Title（参考訳）: 発声検出における話者同一性の影響評価
Authors: Anh-Tuan Dao, Driss Matrouf, Nicholas Evans,
Abstract要約: スポット検出システムは、通常、複数の話者からの多様な記録を用いて訓練される。本稿では,スプーフィング検出システムにおける話者情報の影響について検討する。本稿では,話者不変型マルチタスクフレームワークにおける2つのアプローチを提案する。
参考スコア（独自算出の注目度）: 1.7816843507516946
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Spoofing detection systems are typically trained using diverse recordings from multiple speakers, often assuming that the resulting embeddings are independent of speaker identity. However, this assumption remains unverified. In this paper, we investigate the impact of speaker information on spoofing detection systems. We propose two approaches within our Speaker-Invariant Multi-Task framework, one that models speaker identity within the embeddings and another that removes it. SInMT integrates multi-task learning for joint speaker recognition and spoofing detection, incorporating a gradient reversal layer. Evaluated using four datasets, our speaker-invariant model reduces the average equal error rate by 17% compared to the baseline, with up to 48% reduction for the most challenging attacks (e.g., A11).
Abstract（参考訳）: スポフィング検出システムは通常、複数の話者からの多様な記録を用いて訓練され、その結果の埋め込みが話者のアイデンティティとは独立していると仮定される。しかし、この仮定は検証されていない。本稿では,スプーフィング検出システムにおける話者情報の影響について検討する。本稿では,組込み内の話者識別をモデル化する話者不変マルチタスクフレームワークと,それを除去する話者同一性をモデル化する2つのアプローチを提案する。 SInMTは、複数タスク学習を統合して、話者認識とスプーフィング検出を行い、勾配反転層を組み込む。 4つのデータセットを用いて評価し、我々の話者不変モデルでは、ベースラインと比較して平均的等しいエラー率を17%削減し、最も困難な攻撃(例えば、A11)に対して最大48%削減する。

関連論文リスト

Evaluating Identity Leakage in Speaker De-Identification Systems [1.7699344561127388]
話者識別は, 話者の身元を隠蔽し, 話者の身元を隠蔽することを目的としている。 3つの相補的誤り率で残差アイデンティティリークを定量化するベンチマークを導入する。評価結果から,最先端話者識別システムはすべて識別情報を漏洩していることが明らかとなった。
論文参考訳（メタデータ） (2025-08-19T17:20:25Z)
Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文参考訳（メタデータ） (2025-08-18T11:32:13Z)
Investigating Confidence Estimation Measures for Speaker Diarization [4.679826697518427]
話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。話者ダイアリゼーションエラーは、話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
論文参考訳（メタデータ） (2024-06-24T20:21:38Z)
Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。第2に,話者を音源から遠ざける角度損失関数を提案する。
論文参考訳（メタデータ） (2022-10-30T08:54:02Z)
In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2022-10-26T13:00:29Z)
On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文参考訳（メタデータ） (2022-03-28T09:12:24Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)
Disentangled dimensionality reduction for noise-robust speaker diarisation [30.383712356205084]
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
論文参考訳（メタデータ） (2021-10-07T12:19:09Z)
FoolHD: Fooling speaker identification by Highly imperceptible adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文参考訳（メタデータ） (2020-11-17T07:38:26Z)
Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文参考訳（メタデータ） (2020-08-13T09:36:05Z)
Integrated Replay Spoofing-aware Text-independent Speaker Verification [47.41124427552161]
本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
論文参考訳（メタデータ） (2020-06-10T01:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。