論文の概要: Unsupervised neural adaptation model based on optimal transport for
spoken language identification
- arxiv url: http://arxiv.org/abs/2012.13152v1
- Date: Thu, 24 Dec 2020 07:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:23:02.545891
- Title: Unsupervised neural adaptation model based on optimal transport for
spoken language identification
- Title(参考訳): 音声言語識別のための最適トランスポートに基づく教師なしニューラル適応モデル
- Authors: Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai
- Abstract要約: トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
- 参考スコア(独自算出の注目度): 54.96267179988487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the mismatch of statistical distributions of acoustic speech between
training and testing sets, the performance of spoken language identification
(SLID) could be drastically degraded. In this paper, we propose an unsupervised
neural adaptation model to deal with the distribution mismatch problem for
SLID. In our model, we explicitly formulate the adaptation as to reduce the
distribution discrepancy on both feature and classifier for training and
testing data sets. Moreover, inspired by the strong power of the optimal
transport (OT) to measure distribution discrepancy, a Wasserstein distance
metric is designed in the adaptation loss. By minimizing the classification
loss on the training data set with the adaptation loss on both training and
testing data sets, the statistical distribution difference between training and
testing domains is reduced. We carried out SLID experiments on the oriental
language recognition (OLR) challenge data corpus where the training and testing
data sets were collected from different conditions. Our results showed that
significant improvements were achieved on the cross domain test tasks.
- Abstract(参考訳): トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
本稿では,sidの分布ミスマッチ問題に対処するための教師なしニューラルネットワーク適応モデルを提案する。
本モデルでは,データセットの学習と試験のための特徴量と分類器の分布差を低減するために適応を明示的に定式化する。
さらに、分布差を測定するための最適輸送(OT)の強い力にインスパイアされ、ワッサーシュタイン距離メートル法が適応損失として設計される。
トレーニングデータとテストデータの両方における適応損失を伴うトレーニングデータセットの分類損失を最小化することにより、トレーニング領域とテスト領域の統計分布差を低減させる。
学習データとテストデータセットを異なる条件で収集したオリエンタル言語認識(OLR)チャレンジデータコーパスについてSLID実験を行った。
その結果,クロスドメインテストタスクにおいて大幅な改善が得られた。
関連論文リスト
- LMD3: Language Model Data Density Dependence [78.76731603461832]
我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。
微調整データに対する制御的介入としてパラフレーズを用いた実験は、特定のテストクエリに対するトレーニング分布のサポートの増加が、測定可能な密度の増加をもたらすことを示した。
我々は,学習データのサブセットに対象モデルの予測が依存していることの統計的証拠を提供することができると結論付けた。
論文 参考訳(メタデータ) (2024-05-10T09:03:27Z) - On the Variance of Neural Network Training with respect to Test Sets and Distributions [1.994307489466967]
標準のCIFAR-10とImageNetのトレーニングは、基礎となるテスト配信の性能にほとんどばらつきがないことを示す。
テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiangらによって発見されたクラス校正特性のダウンストリームの結果であることを示す。
本分析では, 分類ケースのばらつきを正確に予測する簡単な式を導出する。
論文 参考訳(メタデータ) (2023-04-04T16:09:55Z) - Learning to Adapt to Online Streams with Distribution Shifts [22.155844301575883]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。
この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。
本稿では,メタトレーニング中にネットワークに分散シフトするオンラインストリームに適応するように教えるメタラーニング手法を提案する。その結果,トレーニングされたモデルはバッチサイズ制限にかかわらず,テスト中の分散シフトに連続的に適応することができる。
論文 参考訳(メタデータ) (2023-03-02T23:36:10Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。