論文の概要: Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype
Mining and Language-Dependent Score Normalization
- arxiv url: http://arxiv.org/abs/2007.07689v2
- Date: Mon, 10 Aug 2020 13:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:19:58.678099
- Title: Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype
Mining and Language-Dependent Score Normalization
- Title(参考訳): ドメインバランスハードプロトタイプマイニングと言語依存スコア正規化を用いた言語間話者照合
- Authors: Jenthe Thienpondt, Brecht Desplanques, Kris Demuynck
- Abstract要約: 本稿では,SdSV (Short-duration Speaker Verification) Challenge 2020における最上位のIDLab申請について述べる。
この課題の主な難しさは、潜在的に言語横断の試行の間に様々な音素の重なりがあることである。
我々は,最先端のECAPA-TDNNx-vectorベースの話者埋め込み抽出器を微調整するために,ドメインバランスのよいハードプロトタイプマイニングを導入する。
- 参考スコア(独自算出の注目度): 14.83348592874271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we describe the top-scoring IDLab submission for the
text-independent task of the Short-duration Speaker Verification (SdSV)
Challenge 2020. The main difficulty of the challenge exists in the large degree
of varying phonetic overlap between the potentially cross-lingual trials, along
with the limited availability of in-domain DeepMine Farsi training data. We
introduce domain-balanced hard prototype mining to fine-tune the
state-of-the-art ECAPA-TDNN x-vector based speaker embedding extractor. The
sample mining technique efficiently exploits speaker distances between the
speaker prototypes of the popular AAM-softmax loss function to construct
challenging training batches that are balanced on the domain-level. To enhance
the scoring of cross-lingual trials, we propose a language-dependent s-norm
score normalization. The imposter cohort only contains data from the Farsi
target-domain which simulates the enrollment data always being Farsi. In case a
Gaussian-Backend language model detects the test speaker embedding to contain
English, a cross-language compensation offset determined on the AAM-softmax
speaker prototypes is subtracted from the maximum expected imposter mean score.
A fusion of five systems with minor topological tweaks resulted in a final
MinDCF and EER of 0.065 and 1.45% respectively on the SdSVC evaluation set.
- Abstract(参考訳): 本稿では,SdSV (Short-duration Speaker Verification) Challenge 2020のテキスト非依存タスクに対するトップスコアIDLabの提出について述べる。
この課題の主な難しさは、潜在的に言語横断的な試験とドメイン内のDeepMine Farsiトレーニングデータの限られた可用性の相違にある。
我々は,最先端のECAPA-TDNNx-vectorベースの話者埋め込み抽出器を微調整するために,ドメインバランスのよいハードプロトタイプマイニングを導入する。
サンプルマイニング技術は、一般的なAAM-softmax損失関数の話者プロトタイプ間の話者距離を効率よく利用し、ドメインレベルでバランスの取れた挑戦的なトレーニングバッチを構築する。
言語間トライアルのスコアを高めるために,言語依存のs-ノルムスコア正規化を提案する。
インポスターコホートには、常にfarsiである登録データをシミュレートするfarsiターゲットドメインのデータのみが含まれている。
gaussian-backend言語モデルが英語を含むテスト話者埋め込みを検出した場合、aam-softmax話者プロトタイプで決定される言語間補償オフセットを最大期待平均スコアから減算する。
トポロジカルな微調整を施した5つのシステムの融合により、SdSVC評価セットでそれぞれ0.065と1.45%の最終的なMinDCFとEERが得られた。
関連論文リスト
- Bilingual Text-dependent Speaker Verification with Pre-trained Models for TdSV Challenge 2024 [0.0]
本稿は、TdSV(Text-dependent Speaker Verification Challenge)2024のイラン分科会に提出する。
TdSVは、特定のフレーズがターゲット話者によって話されたかどうかを決定することを目的としている。
フレーズ検証では、不正確なフレーズを拒否するフレーズと、話者検証では、ドメイン適応型話者埋め込みを抽出した事前訓練されたResNet293が使用される。
Whisper-PMFAは、話者検証に適応した事前訓練されたASRモデルであり、事前訓練されたResNetの性能に劣る。
論文 参考訳(メタデータ) (2024-11-16T15:53:03Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。