論文の概要: Short-Term Memory Convolutions
- arxiv url: http://arxiv.org/abs/2302.04331v1
- Date: Wed, 8 Feb 2023 20:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:34:34.816246
- Title: Short-Term Memory Convolutions
- Title(参考訳): 短期記憶の畳み込み
- Authors: Grzegorz Stefa\'nski, Krzysztof Arendt, Pawe{\l} Daniluk,
Bart{\l}omiej Jasik, Artur Szumaczuk
- Abstract要約: 本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-time processing of time series signals is a critical issue for many
real-life applications. The idea of real-time processing is especially
important in audio domain as the human perception of sound is sensitive to any
kind of disturbance in perceived signals, especially the lag between auditory
and visual modalities. The rise of deep learning (DL) models complicated the
landscape of signal processing. Although they often have superior quality
compared to standard DSP methods, this advantage is diminished by higher
latency. In this work we propose novel method for minimization of inference
time latency and memory consumption, called Short-Term Memory Convolution
(STMC) and its transposed counterpart. The main advantage of STMC is the low
latency comparable to long short-term memory (LSTM) networks. Furthermore, the
training of STMC-based models is faster and more stable as the method is based
solely on convolutional neural networks (CNNs). In this study we demonstrate an
application of this solution to a U-Net model for a speech separation task and
GhostNet model in acoustic scene classification (ASC) task. In case of speech
separation we achieved a 5-fold reduction in inference time and a 2-fold
reduction in latency without affecting the output quality. The inference time
for ASC task was up to 4 times faster while preserving the original accuracy.
- Abstract(参考訳): 時系列信号のリアルタイム処理は多くのリアルタイムアプリケーションにとって重要な問題である。
音の人間の知覚は知覚信号のあらゆる種類の乱れ、特に聴覚と視覚のずれに敏感であるため、リアルタイム処理の考え方は音声領域において特に重要である。
ディープラーニング(DL)モデルの台頭は、信号処理のランドスケープを複雑にしている。
標準的なDSP法に比べて品質が優れていることが多いが、この利点は高いレイテンシーによって減少する。
本研究では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間遅延とメモリ消費の最小化のための新しい手法を提案する。
STMCの主な利点は、長い短期記憶(LSTM)ネットワークに匹敵する低レイテンシである。
さらに,本手法は畳み込みニューラルネットワーク(cnns)のみに基づくため,stmcに基づくモデルのトレーニングは高速かつ安定である。
本研究では,音声分離タスクに対するU-Netモデルと,音響シーン分類(ASC)タスクにおけるGhostNetモデルに対する本手法の適用例を示す。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
ASCタスクの推論時間は、元の精度を維持しながら最大4倍高速であった。
関連論文リスト
- OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications [53.398544571833135]
この研究は、スペクトル的に効率的な不規則なSinc (irSinc) 整形法を提案し、1924年に従来のSincを再考した。
irSincは、誤差性能を犠牲にすることなくスペクトル効率が向上した信号を生成する。
我々の信号は、5G標準信号構成により、同じスペクトル帯域内で高速なデータ伝送を実現する。
論文 参考訳(メタデータ) (2024-06-07T09:20:30Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - A low latency attention module for streaming self-supervised speech representation learning [0.4288177321445912]
SSRL(Self-latency Speech Expression Learning)は、トランスフォーマーアーキテクチャにおける一般的なユースケースである。
本稿では,低演算およびメモリ要求のSSRLアーキテクチャのトレーニングを可能にするアテンションモジュールの実装について述べる。
私たちの実装では、推論のレイテンシも1.92秒から0.16秒に短縮しています。
論文 参考訳(メタデータ) (2023-02-27T00:44:22Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Ultra-low Latency Spiking Neural Networks with Spatio-Temporal
Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。
Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。
本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T15:14:13Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。