論文の概要: Nonlinear Framework for Speech Bandwidth Extension
- arxiv url: http://arxiv.org/abs/2507.15970v1
- Date: Mon, 21 Jul 2025 18:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.831616
- Title: Nonlinear Framework for Speech Bandwidth Extension
- Title(参考訳): 音声帯域拡張のための非線形フレームワーク
- Authors: Tarikul Islam Tamiti, Nursad Mamun, Anomadarshi Barua,
- Abstract要約: NDSI-BWEは、非線形力学系にインスパイアされた4つの新しい識別器を利用する新しい逆帯域幅拡張(BWE)フレームワークである。
NDSI-BWEは、各ディスクリミネータによる畳み込みブロックのコアにおける深さ方向の畳み込みを利用して、8倍のパラメータ還元を実現する。
- 参考スコア(独自算出の注目度): 2.8811725782388686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recovering high-frequency components lost to bandwidth constraints is crucial for applications ranging from telecommunications to high-fidelity audio on limited resources. We introduce NDSI-BWE, a new adversarial Band Width Extension (BWE) framework that leverage four new discriminators inspired by nonlinear dynamical system to capture diverse temporal behaviors: a Multi-Resolution Lyapunov Discriminator (MRLD) for determining sensitivity to initial conditions by capturing deterministic chaos, a Multi-Scale Recurrence Discriminator (MS-RD) for self-similar recurrence dynamics, a Multi-Scale Detrended Fractal Analysis Discriminator (MSDFA) for long range slow variant scale invariant relationship, a Multi-Resolution Poincar\'e Plot Discriminator (MR-PPD) for capturing hidden latent space relationship, a Multi-Period Discriminator (MPD) for cyclical patterns, a Multi-Resolution Amplitude Discriminator (MRAD) and Multi-Resolution Phase Discriminator (MRPD) for capturing intricate amplitude-phase transition statistics. By using depth-wise convolution at the core of the convolutional block with in each discriminators, NDSI-BWE attains an eight-times parameter reduction. These seven discriminators guide a complex-valued ConformerNeXt based genetor with a dual stream Lattice-Net based architecture for simultaneous refinement of magnitude and phase. The genertor leverage the transformer based conformer's global dependency modeling and ConvNeXt block's local temporal modeling capability. Across six objective evaluation metrics and subjective based texts comprises of five human judges, NDSI-BWE establishes a new SoTA in BWE.
- Abstract(参考訳): 帯域幅制限で失われる高周波成分の回収は、通信から限られたリソース上での高忠実なオーディオまで、アプリケーションにとって不可欠である。
NDSI-BWEは、非線形力学系にインスパイアされた新しい4つの識別器を利用して、様々な時間的挙動を捉える、NDSI-BWEフレームワーク、決定論的カオスを捉えて初期状態に対する感度を決定するマルチリゾリューション・リアプノフ識別器(MRLD)、自己相似リカレンスダイナミクスのためのマルチスケール再帰判別器(MS-RD)、長い範囲の変動スケールの変動関係のためのマルチスケール拡張フラクタル解析判別器(MSDFA)、隠れ空間の隠蔽のためのマルチリゾリューション・ポインカー\e Plot discriator(MR-PPD)、隠れ空間の隠蔽のためのマルチレゾリューション・ポインカー\e Plot discriator(MR-PPD)、マルチレゾリューション・ディスクリミネータ(MMP)、マルチレゾリューション・ディスクリミネータ(MR-PD)、マルチレゾリューション・ディスクリミネータ(MR-PD)、マルチレゾリュート・ディスクリゾルト・ディスクリミネータ(MR-PD)、マルチレゾリュート・ディスクリゾルト・ディスクリミネータ(MR-PD)、マルチレゾルト・ディスクリゾルミネータ(MRD-PD)、マルチレゾルミネート・ラミネート・ラミネート(MRLD)を導入している。
NDSI-BWEは、各ディスクリミネータによる畳み込みブロックのコアにおける深さ方向の畳み込みを利用して、8倍のパラメータ還元を実現する。
これらの7つの識別器は、コンフォーマーNeXtをベースとした複雑な値のジェネレータを2つのストリームLattice-Netベースのアーキテクチャで誘導し、マグニチュードとフェーズを同時に改善する。
ジェネレータは、トランスフォーマーベースのコンバータのグローバル依存性モデリングと、ConvNeXtブロックのローカル時間モデリング機能を利用する。
NDSI-BWEは6つの客観的評価指標と主観的ベーステキストからなり、BWEに新たなSoTAを確立する。
関連論文リスト
- PRISM: Lightweight Multivariate Time-Series Classification through Symmetric Multi-Resolution Convolutional Layers [0.0]
PRISM (Per-channel Resolution-Informed Symmetric Module) は、対称有限インパルス応答フィルタを複数の時間スケールで適用する畳み込み型特徴抽出器である。
人間の活動、睡眠ステージ、バイオメディカルベンチマーク全体にわたって、PRISMはCNNとTransformerのベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-08-06T14:50:25Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。
本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文 参考訳(メタデータ) (2025-07-12T17:11:06Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。
本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。
また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-05-20T22:35:34Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - MCL-GAN: Generative Adversarial Networks with Multiple Specialized Discriminators [47.19216713803009]
本稿では,複数の識別器を用いた生成対向ネットワークの枠組みを提案する。
データ全体のサブセットに専門知識を持つように、各差別者を指導します。
複数の識別器を使用するにもかかわらず、バックボーンネットワークは識別器間で共有される。
論文 参考訳(メタデータ) (2021-07-15T11:35:08Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - Sparse Multi-Family Deep Scattering Network [14.932318540666543]
DSN(Deep Scattering Network)の解釈可能性を活用した新しいアーキテクチャを提案する。
SMF-DSNは散乱係数の多様性を高めてDSNを強化し、(ii)非定常雑音に対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2020-12-14T16:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。