論文の概要: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR
- arxiv url: http://arxiv.org/abs/2102.03055v1
- Date: Fri, 5 Feb 2021 08:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 23:03:29.033847
- Title: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR
- Title(参考訳): マルチストリームエンドツーエンドASRのロバスト性向上のための2段階拡張と適応CTC融合
- Authors: Ruizhi Li and Gregory Sell and Hynek Hermansky
- Abstract要約: マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
- 参考スコア(独自算出の注目度): 35.7018440502825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance degradation of an Automatic Speech Recognition (ASR) system is
commonly observed when the test acoustic condition is different from training.
Hence, it is essential to make ASR systems robust against various environmental
distortions, such as background noises and reverberations. In a multi-stream
paradigm, improving robustness takes account of handling a variety of unseen
single-stream conditions and inter-stream dynamics. Previously, a practical
two-stage training strategy was proposed within multi-stream end-to-end ASR,
where Stage-2 formulates the multi-stream model with features from Stage-1
Universal Feature Extractor (UFE). In this paper, as an extension, we introduce
a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1
Augmentation aims to address single-stream input varieties with data
augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE
features of randomly selected streams to simulate diverse stream combinations.
During inference, we also present adaptive Connectionist Temporal
Classification (CTC) fusion with the help of hierarchical attention mechanisms.
Experiments have been conducted on two datasets, DIRHA and AMI, as a
multi-stream scenario. Compared with the previous training strategy,
substantial improvements are reported with relative word error rate reductions
of 29.7-59.3% across several unseen stream combinations.
- Abstract(参考訳): 自動音声認識(ASR)システムの性能劣化は、テスト音響条件が訓練と異なる場合、一般的に観察される。
したがって、背景雑音や残響などの様々な環境歪みに対してASRシステムを堅牢化することが不可欠である。
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
これまでは、stage-2がstage-1 universal feature extractor(ufe)の特徴を持つマルチストリームモデルを定式化するマルチストリームエンドツーエンドasrにおいて、実用的な2段階トレーニング戦略が提案されていた。
本論文では,不整合シナリオに焦点をあてた2段階の拡張スキームを提案する。Stage-1 Augmentationは,データ拡張技術を用いた単一ストリーム入力品種への対処を目的とする。Stage-2 Time Maskingは,ランダムに選択されたストリームのUFE特徴に時間マスクを適用して,多様なストリームの組み合わせをシミュレートする。
また, 階層的注意機構の助けを借りて, 適応的接続性時間分類(CTC)を施行した。
マルチストリームシナリオとして、DIRHAとAMIという2つのデータセットで実験が行われた。
以前のトレーニング戦略と比較すると、単語誤り率を29.7-59.3%削減し、いくつかの未発見のストリームの組み合わせで大幅な改善が報告されている。
関連論文リスト
- DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting [13.05900224897486]
実世界の時系列は、時間とともに分布の変化によって引き起こされる異質な時間パターンを示すことが多い。
チャネル間の相関は複雑で絡み合っており、チャネル間の相互作用を正確にかつ柔軟にモデル化することは困難である。
本稿では,時空間とチャネル次元に2つのクラスタリングを導入するDUETというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T15:15:17Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Online Boosting Adaptive Learning under Concept Drift for Multistream
Classification [34.64751041290346]
マルチストリーム分類は,コンセプトドリフトを伴う動的ストリーミングプロセスにおいて,迅速な適応の必要性から,重要な課題となっている。
本稿では,異なるストリーム間の動的相関を適応的に学習する新しいオンラインブースティング適応学習法を提案する。
論文 参考訳(メタデータ) (2023-12-17T23:10:39Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。