Fugu-MT 論文翻訳(概要): AmberNet: A Compact End-to-End Model for Spoken Language Identification

論文の概要: AmberNet: A Compact End-to-End Model for Spoken Language Identification

arxiv url: http://arxiv.org/abs/2210.15781v1
Date: Thu, 27 Oct 2022 21:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 17:00:03.608253
Title: AmberNet: A Compact End-to-End Model for Spoken Language Identification
Title（参考訳）: AmberNet: 音声言語識別のためのコンパクトなエンドツーエンドモデル
Authors: Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg
Abstract要約: 本稿では,音声言語識別のためのコンパクトなエンドツーエンドニューラルネットワークであるAmberNetを提案する。 AmberNetは1次元の奥行きの分離可能な畳み込みと、グローバルコンテキストを持つSqueeze-and-Excitationレイヤで構成されている。このモデルは、精度とスピードのトレードオフを改善するために、容易にスケーラブルであることを示す。
参考スコア（独自算出の注目度）: 9.374726480685766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present AmberNet, a compact end-to-end neural network for Spoken Language Identification. AmberNet consists of 1D depth-wise separable convolutions and Squeeze-and-Excitation layers with global context, followed by statistics pooling and linear layers. AmberNet achieves performance similar to state-of-the-art(SOTA) models on VoxLingua107 dataset, while being 10x smaller. AmberNet can be adapted to unseen languages and new acoustic conditions with simple finetuning. It attains SOTA accuracy of 75.8% on FLEURS benchmark. We show the model is easily scalable to achieve a better trade-off between accuracy and speed. We further inspect the model's sensitivity to input length and show that AmberNet performs well even on short utterances.
Abstract（参考訳）: 本稿では,音声言語識別のためのコンパクトなエンドツーエンドニューラルネットワークであるAmberNetを提案する。 AmberNetは1次元奥行き分離可能な畳み込みと、グローバルコンテキストを備えたSqueeze-and-Excitationレイヤで構成され、統計プールと線形レイヤが続く。 AmberNetは、VoxLingua107データセット上のState-of-the-art(SOTA)モデルに似たパフォーマンスを実現し、10倍小さい。 ambernetは、未発見の言語や単純な微調整による新しい音響条件に適応することができる。 FLEURSベンチマークの精度は75.8%である。モデルのスケーラビリティが向上し,精度と速度のトレードオフが向上することを示す。さらに,入力長に対するモデルの感度を検査し,短発話においてもambernetが良好であることを示す。

関連論文リスト

SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して- マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文参考訳（メタデータ） (2024-12-03T16:53:58Z)
ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。また,ELGC-Net-LWも導入した。
論文参考訳（メタデータ） (2024-03-26T17:46:25Z)
OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文参考訳（メタデータ） (2022-05-17T19:52:42Z)
Distributionally Robust Recurrent Decoders with Random Network Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文参考訳（メタデータ） (2021-10-25T19:26:29Z)
Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文参考訳（メタデータ） (2021-07-28T03:46:57Z)
Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文参考訳（メタデータ） (2021-04-22T15:21:41Z)
Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文参考訳（メタデータ） (2021-04-08T02:18:47Z)
Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。 CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。 ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文参考訳（メタデータ） (2020-07-29T23:17:48Z)
Deep Learning based, end-to-end metaphor detection in Greek language with Recurrent and Convolutional Neural Networks [0.0]
本稿では,ギリシャ語におけるメタファ検出のための,エンドツーエンドのDeep Learningベースモデルを多数提示し,ベンチマークする。畳み込みニューラルネットワークとリカレントニューラルネットワークと表現学習を組み合わせることで,ギリシャ語のメタファ検出問題に対処する。
論文参考訳（メタデータ） (2020-07-23T12:02:40Z)
Real-time Semantic Segmentation via Spatial-detail Guided Context Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。 69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文参考訳（メタデータ） (2020-05-22T07:07:26Z)
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。 ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文参考訳（メタデータ） (2020-05-07T01:03:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。