論文の概要: A High-Fidelity Speech Super Resolution Network using a Complex Global Attention Module with Spectro-Temporal Loss
- arxiv url: http://arxiv.org/abs/2507.00229v1
- Date: Mon, 30 Jun 2025 19:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.745521
- Title: A High-Fidelity Speech Super Resolution Network using a Complex Global Attention Module with Spectro-Temporal Loss
- Title(参考訳): スペクトル時間損失を持つ複素グローバルアテンションモジュールを用いた高忠実音声超解像ネットワーク
- Authors: Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Rashedul Hasan, Taieba Athay, Nursad Mamun, Anomadarshi Barua,
- Abstract要約: 音声超解像(SSR)はサンプリング率を高めて低分解能音声を強化する。
近年の研究では、知覚品質向上のための位相再構成の重要性が強調されている。
我々は、複雑なSSRタスクを改善するために、複雑なドメインにおける大きさと位相の両方を再構成する複雑な時間周波数変換ネットワークであるCTFT-Netを紹介する。
- 参考スコア(独自算出の注目度): 2.209230432078302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech super-resolution (SSR) enhances low-resolution speech by increasing the sampling rate. While most SSR methods focus on magnitude reconstruction, recent research highlights the importance of phase reconstruction for improved perceptual quality. Therefore, we introduce CTFT-Net, a Complex Time-Frequency Transformation Network that reconstructs both magnitude and phase in complex domains for improved SSR tasks. It incorporates a complex global attention block to model inter-phoneme and inter-frequency dependencies and a complex conformer to capture long-range and local features, improving frequency reconstruction and noise robustness. CTFT-Net employs time-domain and multi-resolution frequency-domain loss functions for better generalization. Experiments show CTFT-Net outperforms state-of-the-art models (NU-Wave, WSRGlow, NVSR, AERO) on the VCTK dataset, particularly for extreme upsampling (2 kHz to 48 kHz), reconstructing high frequencies effectively without noisy artifacts.
- Abstract(参考訳): 音声超解像(SSR)はサンプリング率を高めて低分解能音声を強化する。
殆どのSSR法は等級再構成に重点を置いているが、近年の研究では、知覚品質向上のための位相再構成の重要性が強調されている。
そこで我々は,SSRタスクを改善するために,複雑な領域における等級と位相を再構成する複雑な時間周波数変換ネットワークであるCTFT-Netを導入する。
これは、音素間および周波数間の依存関係をモデル化するための複雑なグローバルアテンションブロックと、長距離および局所的な特徴を捉え、周波数再構成とノイズロバスト性を改善する複雑なコンバータを組み込んでいる。
CTFT-Netは、時間領域と多重解像度の周波数領域損失関数を用いて、より良い一般化を行う。
実験により、CTFT-NetはVCTKデータセット上で最先端のモデル(NU-Wave、WSRGlow、NVSR、AERO)より優れており、特に2kHzから48kHzの極端なアップサンプリングにおいて、ノイズのない高頻度を効率的に再構築する。
関連論文リスト
- FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - GDSR: Global-Detail Integration through Dual-Branch Network with Wavelet Losses for Remote Sensing Image Super-Resolution [30.21425157733119]
リモートセンシング画像(RSI)にRWKV(Receptance Weighted Key Value)を導入する。
本稿では,RWKVと畳み込み操作を並列化してSR再構成を行うGDSRを提案する。
さらに,画像中の高頻度の詳細情報を効果的にキャプチャし,特にディテール再構成におけるSRの視覚的品質を向上させる損失関数であるWavelet Lossを提案する。
論文 参考訳(メタデータ) (2024-12-31T10:43:19Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。