論文の概要: Flexi-Transducer: Optimizing Latency, Accuracy and Compute
forMulti-Domain On-Device Scenarios
- arxiv url: http://arxiv.org/abs/2104.02232v1
- Date: Tue, 6 Apr 2021 01:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:56:43.935409
- Title: Flexi-Transducer: Optimizing Latency, Accuracy and Compute
forMulti-Domain On-Device Scenarios
- Title(参考訳): flexi-transducer:マルチドメインオンデバイスシナリオのためのレイテンシ、精度、計算の最適化
- Authors: Jay Mahadeokar, Yangyang Shi, Yuan Shangguan, Chunyang Wu, Alex Xiao,
Hang Su, Duc Le, Ozlem Kalinli, Christian Fuegen, Michael L. Seltzer
- Abstract要約: オンデバイス音声認識のためのaFlexibleTransducer(FlexiT)を提案する。
一つのモデルでWERを改良し、予測シナリオのリアルタイムファクタを実現できることを示す。
- 参考スコア(独自算出の注目度): 28.24044793337596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Often, the storage and computational constraints of embeddeddevices demand
that a single on-device ASR model serve multiple use-cases / domains. In this
paper, we propose aFlexibleTransducer(FlexiT) for on-device automatic speech
recognition to flexibly deal with multiple use-cases / domains with different
accuracy and latency requirements. Specifically, using a single compact model,
FlexiT provides a fast response for voice commands, and accurate transcription
but with more latency for dictation. In order to achieve flexible and better
accuracy and latency trade-offs, the following techniques are used. Firstly, we
propose using domain-specific altering of segment size for Emformer encoder
that enables FlexiT to achieve flexible de-coding. Secondly, we use Alignment
Restricted RNNT loss to achieve flexible fine-grained control on token emission
latency for different domains. Finally, we add a domain indicator vector as an
additional input to the FlexiT model. Using the combination of techniques, we
show that a single model can be used to improve WERs and real time factor for
dictation scenarios while maintaining optimal latency for voice commands
use-cases
- Abstract(参考訳): 組み込みデバイスのストレージと計算の制約は、単一のオンデバイスASRモデルが複数のユースケース/ドメインを提供するように要求されることが多い。
本稿では,デバイス上で自動音声認識を行うためのaFlexibleTransducer(FlexiT)を提案する。
具体的には、単一のコンパクトモデルを使用して、FlexiTは音声コマンドに対する高速な応答と正確な書き起こしを提供する。
柔軟性と精度の向上とレイテンシのトレードオフを実現するために、以下のテクニックが使用される。
まず、flexitがフレキシブルなデコーディングを実現するために、エンフォーマエンコーダにドメイン固有のセグメントサイズの変更を使用することを提案する。
次に、アライメント制限RNNT損失を用いて、異なるドメインに対するトークンの放出遅延を柔軟に制御する。
最後に、flexitモデルに追加入力としてドメインインジケータベクターを追加します。
手法の組み合わせにより、音声コマンドのユースケースに最適なレイテンシを保ちながら、予測シナリオのWERとリアルタイム係数を改善するために単一のモデルが使用できることを示す。
関連論文リスト
- Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Sparse Binarization for Fast Keyword Spotting [10.964148450512972]
KWSモデルは、リアルタイムアプリケーション、プライバシ、帯域幅効率のためにエッジデバイスにデプロイすることができる。
本稿では,スパース入力表現に基づく新しいキーワードスポッティングモデルを提案する。
また,本手法は高速かつノイズの多い環境でもより堅牢である。
論文 参考訳(メタデータ) (2024-06-09T08:03:48Z) - Adaptive Semantic Token Selection for AI-native Goal-oriented Communications [11.92172357956248]
本稿では,AIネイティブな目標指向通信のための新しい設計を提案する。
我々は、帯域幅と計算量に対する動的推論制約の下でトランスフォーマーニューラルネットワークを利用する。
提案手法は,最先端のトークン選択機構よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-25T13:49:50Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model [84.12646619522774]
本稿では,自己教師付きエンコーダデコーダモデルであるWav2Seqのプロンプトが,従来のシーケンス生成タスクよりも優れていることを示す。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
また、言語間ASRにおけるWav2Seq上でのプロンプトとアダプタチューニングの転送可能性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:07:32Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。