Fugu-MT 論文翻訳(概要): Siamese x-vector reconstruction for domain adapted speaker recognition

論文の概要: Siamese x-vector reconstruction for domain adapted speaker recognition

arxiv url: http://arxiv.org/abs/2007.14146v1
Date: Tue, 28 Jul 2020 12:01:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 03:12:43.293425
Title: Siamese x-vector reconstruction for domain adapted speaker recognition
Title（参考訳）: ドメイン適応型話者認識のためのシームズXベクトル再構成
Authors: Shai Rozenberg, Hagai Aronowitz, Ron Hoory
Abstract要約: ドメイン適応のためのSVR(Siamese x-vector Reconstruction)を提案する。我々は、リーン補助的なシームズを用いて、高品質な信号の埋め込みを低品質な信号から再構築する。提案手法をいくつかのミスマッチシナリオで評価し,ベースラインよりも大幅に改善したことを示す。
参考スコア（独自算出の注目度）: 14.667127929790162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of voice-activated applications, the need for speaker recognition is rapidly increasing. The x-vector, an embedding approach based on a deep neural network (DNN), is considered the state-of-the-art when proper end-to-end training is not feasible. However, the accuracy significantly decreases when recording conditions (noise, sample rate, etc.) are mismatched, either between the x-vector training data and the target data or between enrollment and test data. We introduce the Siamese x-vector Reconstruction (SVR) for domain adaptation. We reconstruct the embedding of a higher quality signal from a lower quality counterpart using a lean auxiliary Siamese DNN. We evaluate our method on several mismatch scenarios and demonstrate significant improvement over the baseline.
Abstract（参考訳）: 音声アプリケーションの普及に伴い、話者認識の必要性が急速に高まっている。ディープニューラルネットワーク(DNN)に基づく埋め込みアプローチであるxベクターは、適切なエンドツーエンドトレーニングが実現不可能な場合、最先端技術であると考えられている。しかし、記録条件(ノイズ、サンプルレート等)がx-vectorトレーニングデータとターゲットデータと、または登録データとテストデータとで不一致した場合、精度は著しく低下する。ドメイン適応のためのSVR(Siamese x-vector Reconstruction)を提案する。我々は、リーン補助的なシームズDNNを用いて高品質信号の埋め込みを低品質信号から再構築する。提案手法をいくつかのミスマッチシナリオで評価し,ベースラインに対する大幅な改善を示す。

関連論文リスト

Adaptive Training of INRs via Pruning and Densification [6.759337697337581]
本稿では、最適化の過程で暗黙的な神経表現を洗練させる適応的なトレーニングスキームであるAIReを紹介する。提案手法では,表現能力を向上させるために,ニューロンプルーニング機構を用いて冗長性と入力周波数密度化を回避する。コードと事前訓練されたモデルは、パブリック使用のためにリリースされる。
論文参考訳（メタデータ） (2025-10-27T23:52:46Z)
Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文参考訳（メタデータ） (2025-08-28T15:43:15Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文参考訳（メタデータ） (2022-07-08T05:07:19Z)
A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。 E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文参考訳（メタデータ） (2022-01-10T21:22:39Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)
Learning Multi-Modal Volumetric Prostate Registration with Weak Inter-Subject Spatial Correspondence [2.6894568533991543]
MRシークエンスにおける前立腺の位置に関する事前情報のための補助入力をニューラルネットワークに導入する。 MR-TRUS前立腺データのラベルが弱いことから,最先端のディープラーニング手法に匹敵する登録品質を示した。
論文参考訳（メタデータ） (2021-02-09T16:48:59Z)
Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文参考訳（メタデータ） (2020-11-26T06:28:04Z)
Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文参考訳（メタデータ） (2020-11-17T12:52:18Z)
DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文参考訳（メタデータ） (2020-11-02T13:50:59Z)
AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文参考訳（メタデータ） (2020-05-07T02:53:47Z)
A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。 9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。我々は最先端の結果に匹敵する精度を達成した。
論文参考訳（メタデータ） (2020-03-19T00:57:40Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。