Fugu-MT 論文翻訳(概要): Real-Time Target Sound Extraction

論文の概要: Real-Time Target Sound Extraction

arxiv url: http://arxiv.org/abs/2211.02250v3
Date: Wed, 19 Apr 2023 09:43:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-20 17:39:42.029178
Title: Real-Time Target Sound Extraction
Title（参考訳）: 実時間目標音抽出
Authors: Bandhav Veluri, Justin Chan, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota
Abstract要約: 実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
参考スコア（独自算出の注目度）: 13.526450617545537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the first neural network model to achieve real-time and streaming target sound extraction. To accomplish this, we propose Waveformer, an encoder-decoder architecture with a stack of dilated causal convolution layers as the encoder, and a transformer decoder layer as the decoder. This hybrid architecture uses dilated causal convolutions for processing large receptive fields in a computationally efficient manner while also leveraging the generalization performance of transformer-based architectures. Our evaluations show as much as 2.2-3.3 dB improvement in SI-SNRi compared to the prior models for this task while having a 1.2-4x smaller model size and a 1.5-2x lower runtime. We provide code, dataset, and audio samples: https://waveformer.cs.washington.edu/.
Abstract（参考訳）: 実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。そこで本研究では,エンコーダとして拡張因果畳み込み層,デコーダとしてトランスフォーマデコーダ層を有するエンコーダ・デコーダアーキテクチャである波形器を提案する。このハイブリッドアーキテクチャは、拡張因果畳み込みを用いて大きな受容場を計算的に効率的に処理し、トランスフォーマーベースのアーキテクチャの一般化性能を活用する。評価の結果、SI-SNRiの2.2-3.3dB改善は、1.2-4倍のモデルサイズと1.5-2倍のランタイムを持つ。コード、データセット、オーディオサンプルを提供します。 https://waveformer.cs.washington.edu/。

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文参考訳（メタデータ） (2024-02-27T03:40:44Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文参考訳（メタデータ） (2023-03-14T04:47:00Z)
Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文参考訳（メタデータ） (2022-12-08T19:38:34Z)
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2022-07-08T10:10:39Z)
Yformer: U-Net Inspired Transformer Architecture for Far Horizon Time Series Forecasting [0.0]
Y-Netにインスパイアされた新しいY字型エンコーダデコーダアーキテクチャは、ダウンスケールのエンコーダ層から対応するアップサンプリングデコーダ層への直接接続を利用する。 4つのベンチマークデータセットに対する関連するベースラインで実験が行われ、平均的な改善は19.82、18.41、13.62、11.85、MAEである。
論文参考訳（メタデータ） (2021-10-13T13:35:54Z)
Non-autoregressive End-to-end Speech Translation with Parallel Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-09T16:50:16Z)
Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文参考訳（メタデータ） (2021-03-27T00:10:16Z)
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。 SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文参考訳（メタデータ） (2020-12-31T18:55:57Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。