Fugu-MT 論文翻訳(概要): Multi-mode Transformer Transducer with Stochastic Future Context

論文の概要: Multi-mode Transformer Transducer with Stochastic Future Context

arxiv url: http://arxiv.org/abs/2106.09760v1
Date: Thu, 17 Jun 2021 18:42:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-21 14:01:56.751199
Title: Multi-mode Transformer Transducer with Stochastic Future Context
Title（参考訳）: 確率的未来文脈をもつマルチモードトランス
Authors: Kwangyoun Kim, Felix Wu, Prashant Sridhar, Kyu J. Han, Shinji Watanabe
Abstract要約: マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
参考スコア（独自算出の注目度）: 53.005638503544866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) models make fewer errors when more surrounding speech information is presented as context. Unfortunately, acquiring a larger future context leads to higher latency. There exists an inevitable trade-off between speed and accuracy. Naively, to fit different latency requirements, people have to store multiple models and pick the best one under the constraints. Instead, a more desirable approach is to have a single model that can dynamically adjust its latency based on different constraints, which we refer to as Multi-mode ASR. A Multi-mode ASR model can fulfill various latency requirements during inference -- when a larger latency becomes acceptable, the model can process longer future context to achieve higher accuracy and when a latency budget is not flexible, the model can be less dependent on future context but still achieve reliable accuracy. In pursuit of Multi-mode ASR, we propose Stochastic Future Context, a simple training procedure that samples one streaming configuration in each iteration. Through extensive experiments on AISHELL-1 and LibriSpeech datasets, we show that a Multi-mode ASR model rivals, if not surpasses, a set of competitive streaming baselines trained with different latency budgets.
Abstract（参考訳）: 自動音声認識(ASR)モデルは、周囲の音声情報を文脈として提示する場合、エラーが少なくなる。残念ながら、より大きな将来のコンテキストを取得すると、レイテンシが高くなる。スピードと精度の間には必然的なトレードオフがある。つまり、異なるレイテンシ要件を満たすためには、複数のモデルを格納し、制約の下で最適なモデルを選択する必要があります。代わりに、より望ましいアプローチは、我々がマルチモードasrと呼ぶ異なる制約に基づいて、動的にレイテンシを調整できる単一のモデルを持つことです。マルチモードのasrモデルは推論中に様々なレイテンシ要求を満たすことができる -- 大きなレイテンシが受け入れられると、モデルがより長い将来のコンテキストを処理して高い精度を達成でき、また、レイテンシの予算が柔軟でない場合、モデルが将来のコンテキストに依存することは少なくなり、信頼できる精度が得られる。マルチモードASRを追求するために,各イテレーションで1つのストリーミング構成をサンプリングする簡単なトレーニング手順であるStochastic Future Contextを提案する。 aishell-1とlibrispeechデータセットの広範な実験を通じて、マルチモードasrモデルが、異なるレイテンシー予算でトレーニングされたストリーミングベースラインの競合であることを示した。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Unifying Streaming and Non-streaming Zipformer-based ASR [14.226219579716629]
本稿では,ストリーミングアプリケーションと非ストリーミングアプリケーションの両方に対して,単一エンドツーエンドのASRモデルをトレーニングする統合フレームワークを提案する。本稿では,zipformer を用いた ASR モデルのトレーニングにおいて,チャンクされた注目マスキングによる動的右コンテキストの利用を提案する。ストリーミングASRモデルの精度と待ち時間に及ぼす右コンテキストフレーム数の変化の影響を解析する。
論文参考訳（メタデータ） (2025-06-17T11:52:41Z)
ODEStream: A Buffer-Free Online Learning Framework with ODE-based Adaptor for Streaming Time Series Forecasting [11.261457967759688]
ODEStreamはバッファフリーの連続的な学習フレームワークで、データ内の時間的依存関係をキャプチャするための時間的分離レイヤを備えている。連続したデータ表現を生成し、データストリーミングシナリオにおける動的変更へのシームレスな適応を可能にする。我々のアプローチは、過去のデータの動的および分布が時間とともにどのように変化するかを学ぶことに集中し、ストリーミングシーケンスの直接処理を容易にする。
論文参考訳（メタデータ） (2024-11-11T22:36:33Z)
Robust Predictions with Ambiguous Time Delays: A Bootstrap Strategy [5.71557730775514]
Time Series Model Bootstrap (TSMB) は、時系列モデリングにおいて潜在的に変動または非決定論的な時間遅延を処理するために設計された汎用的なフレームワークである。 TSMBはトレーニングされたモデルの性能を大幅に向上させ、このフレームワークを使って予測する。
論文参考訳（メタデータ） (2024-08-23T02:38:20Z)
Online Resource Allocation for Edge Intelligence with Colocated Model Retraining and Inference [5.6679198251041765]
我々は、トレーニングモデルと推論の精度を適応的にバランスするリソース割り当てを最適化するために、ORRICというオンライン近似アルゴリズムを導入する。 ORRICの競合比は従来の推論オンリーパラダイムよりも優れている。
論文参考訳（メタデータ） (2024-05-25T03:05:19Z)
TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-04-12T13:41:29Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文参考訳（メタデータ） (2023-09-25T13:16:57Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-16T07:53:42Z)
TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文参考訳（メタデータ） (2022-03-17T05:49:35Z)
Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文参考訳（メタデータ） (2020-11-26T06:28:04Z)
A Streaming On-Device End-to-End Model Surpassing Server-Side Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。 RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文参考訳（メタデータ） (2020-03-28T05:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。