論文の概要: Towards Relevance and Sequence Modeling in Language Recognition
- arxiv url: http://arxiv.org/abs/2004.01221v1
- Date: Thu, 2 Apr 2020 18:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:27:27.573241
- Title: Towards Relevance and Sequence Modeling in Language Recognition
- Title(参考訳): 言語認識における関連性とシーケンスモデリング
- Authors: Bharat Padi, Anand Mohan and Sriram Ganapathy
- Abstract要約: 本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
- 参考スコア(独自算出の注目度): 39.547398348702025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of automatic language identification (LID) involving multiple
dialects of the same language family in the presence of noise is a challenging
problem. In these scenarios, the identity of the language/dialect may be
reliably present only in parts of the temporal sequence of the speech signal.
The conventional approaches to LID (and for speaker recognition) ignore the
sequence information by extracting long-term statistical summary of the
recording assuming an independence of the feature frames. In this paper, we
propose a neural network framework utilizing short-sequence information in
language recognition. In particular, a new model is proposed for incorporating
relevance in language recognition, where parts of speech data are weighted more
based on their relevance for the language recognition task. This relevance
weighting is achieved using the bidirectional long short-term memory (BLSTM)
network with attention modeling. We explore two approaches, the first approach
uses segment level i-vector/x-vector representations that are aggregated in the
neural model and the second approach where the acoustic features are directly
modeled in an end-to-end neural model. Experiments are performed using the
language recognition task in NIST LRE 2017 Challenge using clean, noisy and
multi-speaker speech data as well as in the RATS language recognition corpus.
In these experiments on noisy LRE tasks as well as the RATS dataset, the
proposed approach yields significant improvements over the conventional
i-vector/x-vector based language recognition approaches as well as with other
previous models incorporating sequence information.
- Abstract(参考訳): 雑音の存在下で同じ言語族に属する複数の方言を包含する自動言語識別(LID)の課題は難しい問題である。
これらのシナリオでは、言語/方言の同一性は、音声信号の時間的シーケンスの一部にのみ確実に存在する。
LID(および話者認識)に対する従来の手法は、特徴フレームの独立性を想定した記録の長期統計的要約を抽出することにより、シーケンス情報を無視する。
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
特に,音声データの重み付けが言語認識課題の重み付けに重み付けされる言語認識における関係性を考慮した新しいモデルを提案する。
この関係重み付けは、注目モデリング付き双方向長短期メモリ(BLSTM)ネットワークを用いて達成される。
第1のアプローチではセグメントレベルのi-vector/x-vector表現をニューラルネットワークに集約し,第2のアプローチでは音響的特徴をエンドツーエンドのニューラルモデルで直接モデル化する。
nist lre 2017チャレンジの言語認識タスクを用いて、クリーンでノイズの多いマルチスピーカーの音声データとラットの言語認識コーパスを用いて実験を行った。
これらのノイズの多いLREタスクとRATSデータセットの実験では、従来のi-vector/x-vectorベースの言語認識手法や、シーケンス情報を含む他のモデルよりも大幅に改善されている。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。