論文の概要: Multi-mode Transformer Transducer with Stochastic Future Context
- arxiv url: http://arxiv.org/abs/2106.09760v1
- Date: Thu, 17 Jun 2021 18:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:01:56.751199
- Title: Multi-mode Transformer Transducer with Stochastic Future Context
- Title(参考訳): 確率的未来文脈をもつマルチモードトランス
- Authors: Kwangyoun Kim, Felix Wu, Prashant Sridhar, Kyu J. Han, Shinji Watanabe
- Abstract要約: マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
- 参考スコア(独自算出の注目度): 53.005638503544866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) models make fewer errors when more
surrounding speech information is presented as context. Unfortunately,
acquiring a larger future context leads to higher latency. There exists an
inevitable trade-off between speed and accuracy. Naively, to fit different
latency requirements, people have to store multiple models and pick the best
one under the constraints. Instead, a more desirable approach is to have a
single model that can dynamically adjust its latency based on different
constraints, which we refer to as Multi-mode ASR. A Multi-mode ASR model can
fulfill various latency requirements during inference -- when a larger latency
becomes acceptable, the model can process longer future context to achieve
higher accuracy and when a latency budget is not flexible, the model can be
less dependent on future context but still achieve reliable accuracy. In
pursuit of Multi-mode ASR, we propose Stochastic Future Context, a simple
training procedure that samples one streaming configuration in each iteration.
Through extensive experiments on AISHELL-1 and LibriSpeech datasets, we show
that a Multi-mode ASR model rivals, if not surpasses, a set of competitive
streaming baselines trained with different latency budgets.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、周囲の音声情報を文脈として提示する場合、エラーが少なくなる。
残念ながら、より大きな将来のコンテキストを取得すると、レイテンシが高くなる。
スピードと精度の間には必然的なトレードオフがある。
つまり、異なるレイテンシ要件を満たすためには、複数のモデルを格納し、制約の下で最適なモデルを選択する必要があります。
代わりに、より望ましいアプローチは、我々がマルチモードasrと呼ぶ異なる制約に基づいて、動的にレイテンシを調整できる単一のモデルを持つことです。
マルチモードのasrモデルは推論中に様々なレイテンシ要求を満たすことができる -- 大きなレイテンシが受け入れられると、モデルがより長い将来のコンテキストを処理して高い精度を達成でき、また、レイテンシの予算が柔軟でない場合、モデルが将来のコンテキストに依存することは少なくなり、信頼できる精度が得られる。
マルチモードASRを追求するために,各イテレーションで1つのストリーミング構成をサンプリングする簡単なトレーニング手順であるStochastic Future Contextを提案する。
aishell-1とlibrispeechデータセットの広範な実験を通じて、マルチモードasrモデルが、異なるレイテンシー予算でトレーニングされたストリーミングベースラインの競合であることを示した。
関連論文リスト
- TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。
完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。
本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T13:56:36Z) - Continuous-time convolutions model of event sequences [53.36665135225617]
イベントシーケンスデータの巨大なサンプルは、eコマース、ヘルスケア、ファイナンスなど、さまざまなドメインで発生します。
利用可能なデータの量とクライアント毎のイベントシーケンスの長さは典型的には大きいため、長期的なモデリングが必要である。
時間内の事象の一様発生に適した連続畳み込みニューラルネットワークに基づくCOTIC法を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Features Fusion Framework for Multimodal Irregular Time-series Events [6.497816402045097]
マルチモーダルな不規則な時系列イベントは、サンプリング頻度、データ構成、時間的関係、特性が異なる。
本稿では,Long Short-Term Memory Network (LSTM) に基づくマルチモーダル不規則な時系列イベントのための特徴融合フレームワークを提案する。
MIMIC-IIIデータセットを用いた実験により,提案手法はAUC(受信者動作特性曲線下)とAP(平均精度)において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-05T02:27:12Z) - CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming
ASR [17.999404155015647]
音声認識のための新しいフレームワーク、チャンキング, 未来コンテキスト, 復号化(CUSIDE)を提案する。
将来のコンテキストを待つことなく、将来のコンテキストフレームをシミュレートするために、新しいシミュレーションモジュールが導入された。
実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。
論文 参考訳(メタデータ) (2022-03-31T02:28:48Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。