論文の概要: A Compact End-to-End Model with Local and Global Context for Spoken
Language Identification
- arxiv url: http://arxiv.org/abs/2210.15781v2
- Date: Thu, 10 Aug 2023 23:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:53:10.624622
- Title: A Compact End-to-End Model with Local and Global Context for Spoken
Language Identification
- Title(参考訳): 音声言語識別のための局所的および大域的コンテキストを用いたコンパクトエンド・ツー・エンドモデル
- Authors: Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg
- Abstract要約: 我々は,音声言語識別(LID)のための小型エンドツーエンドニューラルネットワークTitaNet-LIDを紹介する。
TitaNet-LIDは1次元の深度的に分離可能な畳み込みとSqueeze-and-Excitationレイヤを使用して、発話中のコンテキストをキャプチャする。
FLEURSベンチマークで最先端の精度88.2%を達成するため、単純な微調整によって新しい音響条件や目に見えない言語に容易に適応できる。
- 参考スコア(独自算出の注目度): 9.374726480685766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TitaNet-LID, a compact end-to-end neural network for Spoken
Language Identification (LID) that is based on the ContextNet architecture.
TitaNet-LID employs 1D depth-wise separable convolutions and
Squeeze-and-Excitation layers to effectively capture local and global context
within an utterance. Despite its small size, TitaNet-LID achieves performance
similar to state-of-the-art models on the VoxLingua107 dataset while being 10
times smaller. Furthermore, it can be easily adapted to new acoustic conditions
and unseen languages through simple fine-tuning, achieving a state-of-the-art
accuracy of 88.2% on the FLEURS benchmark. Our model is scalable and can
achieve a better trade-off between accuracy and speed. TitaNet-LID performs
well even on short utterances less than 5s in length, indicating its robustness
to input length.
- Abstract(参考訳): 本稿では,ContextNetアーキテクチャに基づく音声言語識別(LID)のための,コンパクトなエンドツーエンドニューラルネットワークTitaNet-LIDを紹介する。
TitaNet-LIDは1次元の深度的に分離可能な畳み込みとSqueeze-and-Excitationレイヤを使用して、発話中のローカルコンテキストとグローバルコンテキストを効果的にキャプチャする。
小型にもかかわらず、TitaNet-LIDはVoxLingua107データセットの最先端モデルと同様のパフォーマンスを10倍に向上させる。
さらに、簡単な微調整により、新しい音響条件や見当たらない言語に容易に適応でき、fleursベンチマークで88.2%の精度で実現できる。
私たちのモデルはスケーラブルで、正確性とスピードのトレードオフを向上できます。
TitaNet-LIDは、5秒未満の短い発話でも良好に動作し、入力長に対する堅牢性を示している。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - Deep Learning based, end-to-end metaphor detection in Greek language
with Recurrent and Convolutional Neural Networks [0.0]
本稿では,ギリシャ語におけるメタファ検出のための,エンドツーエンドのDeep Learningベースモデルを多数提示し,ベンチマークする。
畳み込みニューラルネットワークとリカレントニューラルネットワークと表現学習を組み合わせることで,ギリシャ語のメタファ検出問題に対処する。
論文 参考訳(メタデータ) (2020-07-23T12:02:40Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。