Fugu-MT 論文翻訳(概要): Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions

論文の概要: Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions

arxiv url: http://arxiv.org/abs/2104.11985v1
Date: Sat, 24 Apr 2021 16:41:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 14:30:28.498030
Title: Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions
Title（参考訳）: 自己認識型プールと1次元畳み込みを用いた音声からの言語ID予測
Authors: Roman Bedyakin, Nikolay Mikhaylovskiy
Abstract要約: このメモは、SIGTYP 2021 Shared Task の言語 ID を音声から予測するための NTR-TSU の提出について説明します。多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。本研究では,セルフアテンシブプール層を有する畳み込みニューラルネットワークが,言語識別タスクの有望な結果を示すことを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This memo describes NTR-TSU submission for SIGTYP 2021 Shared Task on predicting language IDs from speech. Spoken Language Identification (LID) is an important step in a multilingual Automated Speech Recognition (ASR) system pipeline. For many low-resource and endangered languages, only single-speaker recordings may be available, demanding a need for domain and speaker-invariant language ID systems. In this memo, we show that a convolutional neural network with a Self-Attentive Pooling layer shows promising results for the language identification task.
Abstract（参考訳）: 本報告では,SIGTYP 2021におけるNTR-TSUによる音声からの言語ID予測タスクについて述べる。音声言語識別(LID)は多言語自動音声認識(ASR)システムパイプラインにおいて重要なステップである。多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。本報告では,自己拘束的プーリング層を有する畳み込みニューラルネットワークが,言語識別タスクに有望な結果を示すことを示す。

関連論文リスト

Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文参考訳（メタデータ） (2023-06-14T21:24:11Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Is Attention always needed? A Case Study on Language Identification from Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文参考訳（メタデータ） (2021-10-05T16:38:57Z)
Low-Resource Spoken Language Identification Using Self-Attentive Pooling and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文参考訳（メタデータ） (2021-05-31T18:35:27Z)
Acoustics Based Intent Recognition Using Discovered Phonetic Units for Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文参考訳（メタデータ） (2020-11-07T00:35:31Z)
Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。 NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文参考訳（メタデータ） (2020-04-02T18:31:18Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。