論文の概要: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR
- arxiv url: http://arxiv.org/abs/2102.03055v1
- Date: Fri, 5 Feb 2021 08:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 23:03:29.033847
- Title: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR
- Title(参考訳): マルチストリームエンドツーエンドASRのロバスト性向上のための2段階拡張と適応CTC融合
- Authors: Ruizhi Li and Gregory Sell and Hynek Hermansky
- Abstract要約: マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
- 参考スコア(独自算出の注目度): 35.7018440502825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance degradation of an Automatic Speech Recognition (ASR) system is
commonly observed when the test acoustic condition is different from training.
Hence, it is essential to make ASR systems robust against various environmental
distortions, such as background noises and reverberations. In a multi-stream
paradigm, improving robustness takes account of handling a variety of unseen
single-stream conditions and inter-stream dynamics. Previously, a practical
two-stage training strategy was proposed within multi-stream end-to-end ASR,
where Stage-2 formulates the multi-stream model with features from Stage-1
Universal Feature Extractor (UFE). In this paper, as an extension, we introduce
a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1
Augmentation aims to address single-stream input varieties with data
augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE
features of randomly selected streams to simulate diverse stream combinations.
During inference, we also present adaptive Connectionist Temporal
Classification (CTC) fusion with the help of hierarchical attention mechanisms.
Experiments have been conducted on two datasets, DIRHA and AMI, as a
multi-stream scenario. Compared with the previous training strategy,
substantial improvements are reported with relative word error rate reductions
of 29.7-59.3% across several unseen stream combinations.
- Abstract(参考訳): 自動音声認識(ASR)システムの性能劣化は、テスト音響条件が訓練と異なる場合、一般的に観察される。
したがって、背景雑音や残響などの様々な環境歪みに対してASRシステムを堅牢化することが不可欠である。
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
これまでは、stage-2がstage-1 universal feature extractor(ufe)の特徴を持つマルチストリームモデルを定式化するマルチストリームエンドツーエンドasrにおいて、実用的な2段階トレーニング戦略が提案されていた。
本論文では,不整合シナリオに焦点をあてた2段階の拡張スキームを提案する。Stage-1 Augmentationは,データ拡張技術を用いた単一ストリーム入力品種への対処を目的とする。Stage-2 Time Maskingは,ランダムに選択されたストリームのUFE特徴に時間マスクを適用して,多様なストリームの組み合わせをシミュレートする。
また, 階層的注意機構の助けを借りて, 適応的接続性時間分類(CTC)を施行した。
マルチストリームシナリオとして、DIRHAとAMIという2つのデータセットで実験が行われた。
以前のトレーニング戦略と比較すると、単語誤り率を29.7-59.3%削減し、いくつかの未発見のストリームの組み合わせで大幅な改善が報告されている。
関連論文リスト
- AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Dizygotic Conditional Variational AutoEncoder for Multi-Modal and
Partial Modality Absent Few-Shot Learning [19.854565192491123]
ディジゴティック条件変分オートエンコーダ(DCVAE)と呼ばれる新しいマルチモーダルデータ拡張手法を提案する。
DCVAEは、2つの条件変分オートエンコーダ(CVAE)を同じシードでペアリングすることで特徴合成を行うが、ジジゴティック共生方式では異なるモダリティ条件を行う。
2つのCVAEの生成した特徴を適応的に組み合わせて最終特徴を与える。
論文 参考訳(メタデータ) (2021-06-28T08:29:55Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。