論文の概要: Multi-mode Transformer Transducer with Stochastic Future Context
- arxiv url: http://arxiv.org/abs/2106.09760v1
- Date: Thu, 17 Jun 2021 18:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:01:56.751199
- Title: Multi-mode Transformer Transducer with Stochastic Future Context
- Title(参考訳): 確率的未来文脈をもつマルチモードトランス
- Authors: Kwangyoun Kim, Felix Wu, Prashant Sridhar, Kyu J. Han, Shinji Watanabe
- Abstract要約: マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
- 参考スコア(独自算出の注目度): 53.005638503544866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) models make fewer errors when more
surrounding speech information is presented as context. Unfortunately,
acquiring a larger future context leads to higher latency. There exists an
inevitable trade-off between speed and accuracy. Naively, to fit different
latency requirements, people have to store multiple models and pick the best
one under the constraints. Instead, a more desirable approach is to have a
single model that can dynamically adjust its latency based on different
constraints, which we refer to as Multi-mode ASR. A Multi-mode ASR model can
fulfill various latency requirements during inference -- when a larger latency
becomes acceptable, the model can process longer future context to achieve
higher accuracy and when a latency budget is not flexible, the model can be
less dependent on future context but still achieve reliable accuracy. In
pursuit of Multi-mode ASR, we propose Stochastic Future Context, a simple
training procedure that samples one streaming configuration in each iteration.
Through extensive experiments on AISHELL-1 and LibriSpeech datasets, we show
that a Multi-mode ASR model rivals, if not surpasses, a set of competitive
streaming baselines trained with different latency budgets.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、周囲の音声情報を文脈として提示する場合、エラーが少なくなる。
残念ながら、より大きな将来のコンテキストを取得すると、レイテンシが高くなる。
スピードと精度の間には必然的なトレードオフがある。
つまり、異なるレイテンシ要件を満たすためには、複数のモデルを格納し、制約の下で最適なモデルを選択する必要があります。
代わりに、より望ましいアプローチは、我々がマルチモードasrと呼ぶ異なる制約に基づいて、動的にレイテンシを調整できる単一のモデルを持つことです。
マルチモードのasrモデルは推論中に様々なレイテンシ要求を満たすことができる -- 大きなレイテンシが受け入れられると、モデルがより長い将来のコンテキストを処理して高い精度を達成でき、また、レイテンシの予算が柔軟でない場合、モデルが将来のコンテキストに依存することは少なくなり、信頼できる精度が得られる。
マルチモードASRを追求するために,各イテレーションで1つのストリーミング構成をサンプリングする簡単なトレーニング手順であるStochastic Future Contextを提案する。
aishell-1とlibrispeechデータセットの広範な実験を通じて、マルチモードasrモデルが、異なるレイテンシー予算でトレーニングされたストリーミングベースラインの競合であることを示した。
関連論文リスト
- Robust Predictions with Ambiguous Time Delays: A Bootstrap Strategy [5.71557730775514]
Time Series Model Bootstrap (TSMB) は、時系列モデリングにおいて潜在的に変動または非決定論的な時間遅延を処理するために設計された汎用的なフレームワークである。
TSMBはトレーニングされたモデルの性能を大幅に向上させ、このフレームワークを使って予測する。
論文 参考訳(メタデータ) (2024-08-23T02:38:20Z) - Online Resource Allocation for Edge Intelligence with Colocated Model Retraining and Inference [5.6679198251041765]
我々は、トレーニングモデルと推論の精度を適応的にバランスするリソース割り当てを最適化するために、ORRICというオンライン近似アルゴリズムを導入する。
ORRICの競合比は従来の推論オンリーパラダイムよりも優れている。
論文 参考訳(メタデータ) (2024-05-25T03:05:19Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。