論文の概要: Enhance Language Identification using Dual-mode Model with Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2203.03218v1
- Date: Mon, 7 Mar 2022 09:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:46:27.191394
- Title: Enhance Language Identification using Dual-mode Model with Knowledge
Distillation
- Title(参考訳): 知識蒸留を用いたデュアルモードモデルによる言語識別
- Authors: Hexin Liu, Leibny Paola Garcia Perera, Andy W.H. Khong, Justin
Dauwels, Suzy J. Styles, Sanjeev Khudanpur
- Abstract要約: 本稿では,X-vector self-attention (XSA-LID) モデルに知識蒸留 (KD) を用いた二重モードフレームワークを用いて,長い発話と短い発話の両方において言語識別 (LID) 性能を向上させることを提案する。
両モードXSA-LIDモデルは、各入力がフル長の音声と特定のブールマスクによって抽出されたショートクリップとで、フルモードとショートモードの両方を共同で最適化し、KDを適用して、短い発話の性能をさらに向上させる。
- 参考スコア(独自算出の注目度): 31.300489608505515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose to employ a dual-mode framework on the x-vector
self-attention (XSA-LID) model with knowledge distillation (KD) to enhance its
language identification (LID) performance for both long and short utterances.
The dual-mode XSA-LID model is trained by jointly optimizing both the full and
short modes with their respective inputs being the full-length speech and its
short clip extracted by a specific Boolean mask, and KD is applied to further
boost the performance on short utterances. In addition, we investigate the
impact of clip-wise linguistic variability and lexical integrity for LID by
analyzing the variation of LID performance in terms of the lengths and
positions of the mimicked speech clips. We evaluated our approach on the MLS14
data from the NIST 2017 LRE. With the 3~s random-location Boolean mask, our
proposed method achieved 19.23%, 21.52% and 8.37% relative improvement in
average cost compared with the XSA-LID model on 3s, 10s, and 30s speech,
respectively.
- Abstract(参考訳): 本稿では,x-vector self-attention (XSA-LID) モデルに知識蒸留 (KD) を用いた二重モードフレームワークを用いて,長音と短音の両方で言語識別 (LID) 性能を向上させることを提案する。
両モードXSA-LIDモデルは、各入力がフル長の音声と特定のブールマスクによって抽出されたショートクリップとで、フルモードとショートモードの両方を共同最適化し、KDを適用して、短い発話の性能をさらに向上させる。
さらに、模倣音声クリップの長さと位置からLID性能の変動を分析することにより、LIDに対するクリップワイド言語的変動と語彙的整合性の影響について検討した。
我々はNIST 2017 LREのMLS14データに対するアプローチを評価した。
提案手法は,3s,10s,30sのXSA-LIDモデルと比較して,平均コストが19.23%,21.52%,8.37%向上した。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。