論文の概要: Implicit spoken language diarization
- arxiv url: http://arxiv.org/abs/2306.12913v1
- Date: Thu, 22 Jun 2023 14:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:15:45.884042
- Title: Implicit spoken language diarization
- Title(参考訳): 暗黙の音声言語ダイアリゼーション
- Authors: Jagabandhu Mishra, Amartya Chowdhury, S. R. Mahadeva Prasanna
- Abstract要約: この研究は、まず、話者情報を暗黙的にキャプチャしてSpoken言語ダイアリゼーションタスクを実行する、利用可能な話者ダイアリゼーションフレームワークについて検討する。
エンド・ツー・エンドのXベクトルアプローチを用いた合成符号スウィッチデータにおけるLDシステムの性能は6.78%と7.06%であり、実用データではダイアリゼーション誤差率とジャカード誤差率(JER)の22.50%と60.38%である。
性能劣化は、データ不均衡によるものであり、J の相対的な改善を 30.74% とする事前訓練された Wave2vec 埋め込みを用いてある程度解決される。
- 参考スコア(独自算出の注目度): 14.73394333264688
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spoken language diarization (LD) and related tasks are mostly explored using
the phonotactic approach. Phonotactic approaches mostly use explicit way of
language modeling, hence requiring intermediate phoneme modeling and
transcribed data. Alternatively, the ability of deep learning approaches to
model temporal dynamics may help for the implicit modeling of language
information through deep embedding vectors. Hence this work initially explores
the available speaker diarization frameworks that capture speaker information
implicitly to perform LD tasks. The performance of the LD system on synthetic
code-switch data using the end-to-end x-vector approach is 6.78% and 7.06%, and
for practical data is 22.50% and 60.38%, in terms of diarization error rate and
Jaccard error rate (JER), respectively. The performance degradation is due to
the data imbalance and resolved to some extent by using pre-trained wave2vec
embeddings that provide a relative improvement of 30.74% in terms of JER.
- Abstract(参考訳): 話し言葉ダイアリゼーション(ld)と関連するタスクは、主にフォノタティックアプローチを用いて探求される。
Phonotacticアプローチは主に言語モデリングの明示的な方法を使用するため、中間音素モデリングと転写データが必要である。
あるいは、時間力学をモデル化するディープラーニングアプローチの能力は、深層埋め込みベクトルによる言語情報の暗黙的モデリングに役立つかもしれない。
したがって、この研究はまず、LDタスクを実行するために暗黙的に話者情報をキャプチャする、利用可能な話者ダイアリゼーションフレームワークを探求する。
エンド・ツー・エンドのx-vectorアプローチを用いた合成符号切替データにおけるldシステムの性能は6.78%と7.06%であり、実データではダイアリゼーション誤差率とjaccardエラーレート(jer)でそれぞれ22.50%と60.38%である。
性能劣化は、データ不均衡のためであり、JERの相対的な改善となる30.74%のトレーニング済みWave2vec埋め込みを使用することである程度解決された。
関連論文リスト
- LaDA: Latent Dialogue Action For Zero-shot Cross-lingual Neural Network
Language Modeling [20.002861239367704]
言語間適応は限られた資源を持つ音声言語理解システムにおいて有効であることが証明されている。
既存の方法はしばしばインテント検出やスロットフィリングに不満足である。
復号化戦略を最適化するために、潜在対話アクション層が提案されている。
論文 参考訳(メタデータ) (2023-08-05T15:51:45Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Transfer Learning based Speech Affect Recognition in Urdu [0.0]
高リソース言語のモデルが認識タスクに与える影響を事前学習し、低リソース言語のパラメータを微調整する。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
論文 参考訳(メタデータ) (2021-03-05T10:30:58Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。