Fugu-MT 論文翻訳(概要): Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream End-to-End ASR

論文の概要: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream End-to-End ASR

arxiv url: http://arxiv.org/abs/2102.03055v1
Date: Fri, 5 Feb 2021 08:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-08 23:03:29.033847
Title: Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream End-to-End ASR
Title（参考訳）: マルチストリームエンドツーエンドASRのロバスト性向上のための2段階拡張と適応CTC融合
Authors: Ruizhi Li and Gregory Sell and Hynek Hermansky
Abstract要約: マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。ミスマッチシナリオに着目した2段階拡張方式を提案する。従来の訓練戦略と比較して、単語誤り率を29.7～59.3%削減するなど、大幅な改善が報告されている。
参考スコア（独自算出の注目度）: 35.7018440502825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Performance degradation of an Automatic Speech Recognition (ASR) system is commonly observed when the test acoustic condition is different from training. Hence, it is essential to make ASR systems robust against various environmental distortions, such as background noises and reverberations. In a multi-stream paradigm, improving robustness takes account of handling a variety of unseen single-stream conditions and inter-stream dynamics. Previously, a practical two-stage training strategy was proposed within multi-stream end-to-end ASR, where Stage-2 formulates the multi-stream model with features from Stage-1 Universal Feature Extractor (UFE). In this paper, as an extension, we introduce a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1 Augmentation aims to address single-stream input varieties with data augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE features of randomly selected streams to simulate diverse stream combinations. During inference, we also present adaptive Connectionist Temporal Classification (CTC) fusion with the help of hierarchical attention mechanisms. Experiments have been conducted on two datasets, DIRHA and AMI, as a multi-stream scenario. Compared with the previous training strategy, substantial improvements are reported with relative word error rate reductions of 29.7-59.3% across several unseen stream combinations.
Abstract（参考訳）: 自動音声認識(ASR)システムの性能劣化は、テスト音響条件が訓練と異なる場合、一般的に観察される。したがって、背景雑音や残響などの様々な環境歪みに対してASRシステムを堅牢化することが不可欠である。マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。これまでは、stage-2がstage-1 universal feature extractor(ufe)の特徴を持つマルチストリームモデルを定式化するマルチストリームエンドツーエンドasrにおいて、実用的な2段階トレーニング戦略が提案されていた。本論文では,不整合シナリオに焦点をあてた2段階の拡張スキームを提案する。Stage-1 Augmentationは,データ拡張技術を用いた単一ストリーム入力品種への対処を目的とする。Stage-2 Time Maskingは,ランダムに選択されたストリームのUFE特徴に時間マスクを適用して,多様なストリームの組み合わせをシミュレートする。また, 階層的注意機構の助けを借りて, 適応的接続性時間分類(CTC)を施行した。マルチストリームシナリオとして、DIRHAとAMIという2つのデータセットで実験が行われた。以前のトレーニング戦略と比較すると、単語誤り率を29.7-59.3%削減し、いくつかの未発見のストリームの組み合わせで大幅な改善が報告されている。

関連論文リスト

DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文参考訳（メタデータ） (2025-07-28T08:42:00Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-20T13:53:58Z)
DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting [13.05900224897486]
実世界の時系列は、時間とともに分布の変化によって引き起こされる異質な時間パターンを示すことが多い。チャネル間の相関は複雑で絡み合っており、チャネル間の相互作用を正確にかつ柔軟にモデル化することは困難である。本稿では,時空間とチャネル次元に2つのクラスタリングを導入するDUETというフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-14T15:15:17Z)
Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにおいて重要な役割を担っている。ダブルダイナミクスは、リアルタイムISACプリコーディング設計において重要な課題を示す。本稿では,機械(SoM)に強化されたプリコーディングパラダイムの合成を提案する。
論文参考訳（メタデータ） (2024-08-24T10:35:10Z)
Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文参考訳（メタデータ） (2024-06-27T02:32:46Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Online Boosting Adaptive Learning under Concept Drift for Multistream Classification [34.64751041290346]
マルチストリーム分類は,コンセプトドリフトを伴う動的ストリーミングプロセスにおいて,迅速な適応の必要性から,重要な課題となっている。本稿では,異なるストリーム間の動的相関を適応的に学習する新しいオンラインブースティング適応学習法を提案する。
論文参考訳（メタデータ） (2023-12-17T23:10:39Z)
Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T17:48:09Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文参考訳（メタデータ） (2023-04-19T16:18:47Z)
Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文参考訳（メタデータ） (2022-04-30T09:01:21Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。