論文の概要: Cross-Domain Adaptation of Spoken Language Identification for Related
Languages: The Curious Case of Slavic Languages
- arxiv url: http://arxiv.org/abs/2008.00545v2
- Date: Fri, 7 Aug 2020 00:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:57:53.055407
- Title: Cross-Domain Adaptation of Spoken Language Identification for Related
Languages: The Curious Case of Slavic Languages
- Title(参考訳): 関連言語に対する音声言語識別のクロスドメイン適応--スラヴ語を事例として
- Authors: Badr M. Abdullah, Tania Avgustinova, Bernd M\"obius, Dietrich Klakow
- Abstract要約: 本稿では,ドメインミスマッチがニューラルLIDシステムの性能に与える影響について検討する。
ドメイン外の音声サンプルがニューラルLIDモデルの性能を著しく損なうことを示す。
音源領域の音響条件の多様性に応じて,9%から77%の相対精度向上を実現した。
- 参考スコア(独自算出の注目度): 17.882477802269243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art spoken language identification (LID) systems, which are
based on end-to-end deep neural networks, have shown remarkable success not
only in discriminating between distant languages but also between
closely-related languages or even different spoken varieties of the same
language. However, it is still unclear to what extent neural LID models
generalize to speech samples with different acoustic conditions due to domain
shift. In this paper, we present a set of experiments to investigate the impact
of domain mismatch on the performance of neural LID systems for a subset of six
Slavic languages across two domains (read speech and radio broadcast) and
examine two low-level signal descriptors (spectral and cepstral features) for
this task. Our experiments show that (1) out-of-domain speech samples severely
hinder the performance of neural LID models, and (2) while both spectral and
cepstral features show comparable performance within-domain, spectral features
show more robustness under domain mismatch. Moreover, we apply unsupervised
domain adaptation to minimize the discrepancy between the two domains in our
study. We achieve relative accuracy improvements that range from 9% to 77%
depending on the diversity of acoustic conditions in the source domain.
- Abstract(参考訳): エンド・ツー・エンドのディープ・ニューラルネットワークをベースとした最先端の音声言語識別(LID)システムは、遠隔言語間だけでなく、近縁言語間や同一言語の異なる言語間でも顕著な成功を収めている。
しかし、ドメインシフトによって異なる音響条件を持つ音声サンプルにニューラル蓋モデルがどの程度一般化するかは、まだ不明である。
本稿では,2つの領域にわたる6つのスラヴ語サブセット(読み上げ音声とラジオ放送)に対するニューラルLIDシステムの性能に対するドメインミスマッチの影響について検討し,この課題に対する2つの低レベル信号記述子(スペクトルおよびケプストラム特徴)について検討する。
実験の結果,(1)ドメイン外の音声サンプルはニューラルLIDモデルの性能を著しく損なうこと,(2)スペクトルとケプストラムの特徴はドメイン内で同等の性能を示すが,スペクトルの特徴はドメインミスマッチ下でより堅牢性を示すことがわかった。
さらに,2つの領域間の差を最小限に抑えるために,教師なし領域適応を適用した。
音源領域の音響条件の多様性に応じて,9%から77%の相対精度向上を実現した。
関連論文リスト
- Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。
言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。
我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文 参考訳(メタデータ) (2023-12-18T06:40:24Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - SIGTYP 2021 Shared Task: Robust Spoken Language Identification [33.517587041976356]
多くの低リソースおよび絶滅危惧言語は、望まれるアプリケーションシナリオと異なるドメインを持つことができる。
今年の音声言語識別に関する共通課題は、このシナリオだけを調査することであった。
ドメインと話者のミスマッチは、95%以上の精度でドメイン内で実行できる現在の手法にとって非常に困難である。
論文 参考訳(メタデータ) (2021-06-07T18:12:27Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。