論文の概要: Implicit Self-supervised Language Representation for Spoken Language
Diarization
- arxiv url: http://arxiv.org/abs/2308.10470v1
- Date: Mon, 21 Aug 2023 05:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:57:30.077727
- Title: Implicit Self-supervised Language Representation for Spoken Language
Diarization
- Title(参考訳): 音声言語ダイアリゼーションのための暗黙的自己教師付き言語表現
- Authors: Jagabandhu Mishra and S. R. Mahadeva Prasanna
- Abstract要約: コードスイッチング(CS)のシナリオでは,事前評価システムとしての音声言語ダイアリゼーション(LD)の利用が不可欠である。
話者ダイアリゼーション(SD)の文献から着想を得て,(1)固定分節,(2)変化点に基づく分節,(3)E2Eに基づく3つのフレームワークを提案する。
最も暗黙的なLD性能は、JER(Jaccard error rate)の点で6.38ドルであり、E2Eフレームワークを用いて達成されている。
- 参考スコア(独自算出の注目度): 8.497967646370421
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a code-switched (CS) scenario, the use of spoken language diarization (LD)
as a pre-possessing system is essential. Further, the use of implicit
frameworks is preferable over the explicit framework, as it can be easily
adapted to deal with low/zero resource languages. Inspired by speaker
diarization (SD) literature, three frameworks based on (1) fixed segmentation,
(2) change point-based segmentation and (3) E2E are proposed to perform LD. The
initial exploration with synthetic TTSF-LD dataset shows, using x-vector as
implicit language representation with appropriate analysis window length ($N$)
can able to achieve at per performance with explicit LD. The best implicit LD
performance of $6.38$ in terms of Jaccard error rate (JER) is achieved by using
the E2E framework. However, considering the E2E framework the performance of
implicit LD degrades to $60.4$ while using with practical Microsoft CS (MSCS)
dataset. The difference in performance is mostly due to the distributional
difference between the monolingual segment duration of secondary language in
the MSCS and TTSF-LD datasets. Moreover, to avoid segment smoothing, the
smaller duration of the monolingual segment suggests the use of a small value
of $N$. At the same time with small $N$, the x-vector representation is unable
to capture the required language discrimination due to the acoustic similarity,
as the same speaker is speaking both languages. Therefore, to resolve the issue
a self-supervised implicit language representation is proposed in this study.
In comparison with the x-vector representation, the proposed representation
provides a relative improvement of $63.9\%$ and achieved a JER of $21.8$ using
the E2E framework.
- Abstract(参考訳): コードスイッチング(CS)のシナリオでは,事前評価システムとしての言語ダイアリゼーション(LD)の利用が不可欠である。
さらに、暗黙的なフレームワークの使用は明示的なフレームワークよりも好まれる。
話者ダイアリゼーション(sd)の文献に触発され,(1)固定セグメント化,(2)変化点に基づくセグメント化,(3)e2eに基づく3つのフレームワークが提案されている。
合成TTSF-LDデータセットによる最初の調査では、x-vectorを適切な分析ウィンドウ長(N$)で暗黙の言語表現として使用することにより、明示的なLDでパフォーマンス毎に達成できることが示されている。
最も暗黙的なLD性能は、JER(Jaccard error rate)の点で6.38ドルであり、E2Eフレームワークを用いて達成されている。
しかしながら、E2Eフレームワークを考えると、暗黙のLDのパフォーマンスは、実用的なMicrosoft CS(MSCS)データセットを使用しながら60.4ドルに低下する。
性能の違いは、MSCSデータセットとTTSF-LDデータセットにおけるセカンダリ言語のモノリンガルセグメント長の分布差が主な原因である。
さらに、セグメントの平滑化を避けるために、モノリンガルセグメントの短い期間は、$N$という小さな値を使うことを示唆する。
それと同時に、同じ話者が両方の言語を話しているため、x-vector表現は音響的類似性のために必要な言語識別を捉えることができない。
そこで本研究では,自己教師付き暗黙的言語表現を提案する。
x-ベクトル表現と比較して、提案された表現は、相対的に63.9 %$の改善を提供し、E2Eフレームワークを使用して21.8$のJERを達成した。
関連論文リスト
- Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。