論文の概要: DM: Dual-path Magnitude Network for General Speech Restoration
- arxiv url: http://arxiv.org/abs/2409.08702v1
- Date: Fri, 13 Sep 2024 10:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:58:47.424874
- Title: DM: Dual-path Magnitude Network for General Speech Restoration
- Title(参考訳): DM:Dual-path Magnitude Network for General Speech Restoration (英語)
- Authors: Da-Hee Yang, Dail Kim, Joon-Hyuk Chang, Jeonghwan Choi, Han-gil Moon,
- Abstract要約: 本稿では,新しい一般音声復元モデルであるDual-path Magnitude(DM)ネットワークを紹介する。
DMネットワークはパラメータを共有するデュアル並列デコーダを使用している。
DMネットワークの新たな側面は、マスキングデコーダから出力されるマグニチュード・スペクトログラムをマッピングデコーダに統合することである。
- 参考スコア(独自算出の注目度): 19.427745490161275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel general speech restoration model: the Dual-path Magnitude (DM) network, designed to address multiple distortions including noise, reverberation, and bandwidth degradation effectively. The DM network employs dual parallel magnitude decoders that share parameters: one uses a masking-based algorithm for distortion removal and the other employs a mapping-based approach for speech restoration. A novel aspect of the DM network is the integration of the magnitude spectrogram output from the masking decoder into the mapping decoder through a skip connection, enhancing the overall restoration capability. This integrated approach overcomes the inherent limitations observed in previous models, as detailed in a step-by-step analysis. The experimental results demonstrate that the DM network outperforms other baseline models in the comprehensive aspect of general speech restoration, achieving substantial restoration with fewer parameters.
- Abstract(参考訳): 本稿では, 雑音, 残響, 帯域幅の劣化など複数の歪みを効果的に解消するために設計された, 新しい一般音声復元モデルであるDual-path Magnitude (DM) ネットワークを提案する。
DMネットワークはパラメータを共有する並列デコーダを用いており、一方は歪み除去にマスキングベースのアルゴリズム、もう一方は音声の復元にマッピングベースのアプローチを採用している。
DMネットワークの新たな側面は、マスクデコーダから出力されるマグニチュード・スペクトログラムをスキップ接続を介してマッピングデコーダに統合し、全体的な復元能力を高めることである。
この統合されたアプローチは、ステップバイステップ分析で詳述されたように、以前のモデルで観察された固有の制限を克服する。
実験の結果,DMネットワークは一般的な音声復元の包括的側面において,他のベースラインモデルよりも優れており,パラメータが少なく,実質的な復元を実現していることがわかった。
関連論文リスト
- Reversible Decoupling Network for Single Image Reflection Removal [15.763420129991255]
高レベルのセマンティックなヒントは、層間伝播中に圧縮または破棄される傾向がある。
我々はReversible Decoupling Network (RDNet)と呼ばれる新しいアーキテクチャを提案する。
RDNetは可逆エンコーダを使用して、転送時と反射時の特徴を柔軟に分離しながら、貴重な情報を確保する。
論文 参考訳(メタデータ) (2024-10-10T15:58:27Z) - ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。
本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。
また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-05-20T22:35:34Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Deep Iteration Assisted by Multi-level Obey-pixel Network Discriminator
(DIAMOND) for Medical Image Recovery [0.6719751155411076]
従来の反復型ネットワークと最新のディープネットワークの両方が注目されており、満足度の高い画像の再構成において大幅な改善がなされている。
本研究は,それらの利点を1つの統一数学的モデルに統合し,そのような問題に対処するための一般的な画像復元戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T16:57:33Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Semantic Features Aided Multi-Scale Reconstruction of Inter-Modality
Magnetic Resonance Images [12.39341163725669]
本稿では,エンコーダデコーダアーキテクチャを用いて,T1W画像からT2W画像を再構成する,新しいディープ・ネットワーク・ベース・ソリューションを提案する。
提案した学習は,2方向の強調値と画像の勾配を持つマルチチャネル入力を用いて,意味的特徴によって支援される。
論文 参考訳(メタデータ) (2020-06-22T19:53:50Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Unsupervised Adaptive Neural Network Regularization for Accelerated
Radial Cine MRI [3.6280929178575994]
本研究では,浅部畳み込みニューラルネットワークの非教師なし学習に基づく2次元放射状シネMRIの反復的再構成手法を提案する。
ネットワークは、再構築中の解の現在の推定値のパッチを近似するように訓練される。
論文 参考訳(メタデータ) (2020-02-10T14:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。