論文の概要: Modernizing Open-Set Speech Language Identification
- arxiv url: http://arxiv.org/abs/2205.10397v1
- Date: Fri, 20 May 2022 18:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 14:16:26.526219
- Title: Modernizing Open-Set Speech Language Identification
- Title(参考訳): オープンセット音声言語識別の近代化
- Authors: Mustafa Eyceoz, Justin Lee, and Homayoon Beigi
- Abstract要約: クローズドセット言語識別に2つの最新技術アプローチを適用することで、オープンセットタスクに取り組む。
MFCCによる入力特徴埋め込み、ログスペクトル特徴、ピッチの改善に加えて、オフ・オブ・セット言語検出の2つのアプローチを試みます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most modern speech Language Identification methods are closed-set, we
want to see if they can be modified and adapted for the open-set problem. When
switching to the open-set problem, the solution gains the ability to reject an
audio input when it fails to match any of our known language options. We tackle
the open-set task by adapting two modern-day state-of-the-art approaches to
closed-set language identification: the first using a CRNN with attention and
the second using a TDNN. In addition to enhancing our input feature embeddings
using MFCCs, log spectral features, and pitch, we will be attempting two
approaches to out-of-set language detection: one using thresholds, and the
other essentially performing a verification task. We will compare both the
performance of the TDNN and the CRNN, as well as our detection approaches.
- Abstract(参考訳): ほとんどの現代音声言語識別法はクローズドセットであるが,オープンセット問題に対して修正や適応が可能であるか確かめたい。
オープンセット問題に切り替えると、ソリューションは、既知の言語オプションにマッチしない場合に、オーディオ入力を拒否する機能を提供します。
クローズドセット言語識別に現代最先端の2つのアプローチを適用することで、オープンセットタスクに取り組む。
MFCC,ログスペクトル特徴,ピッチを用いた入力特徴埋め込みの強化に加えて,しきい値を用いた言語検出と,基本的に検証タスクを実行するための2つのアプローチを試みます。
我々は,TDNNとCRNNの性能および検出手法の比較を行う。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Checks and Strategies for Enabling Code-Switched Machine Translation [22.67264032644644]
コードスイッチングは多言語話者の間で共通する現象であり、単一の会話の文脈内で2つ以上の言語間の交替が発生する。
この研究は、コードスイッチされたテキストを処理する多言語ニューラルネットワーク翻訳(NMT)モデルの能力について検討する。
論文 参考訳(メタデータ) (2022-10-11T02:25:21Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification [0.013428344011390777]
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。
認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
論文 参考訳(メタデータ) (2021-08-04T12:59:53Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。