Fugu-MT 論文翻訳(概要): Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

論文の概要: Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

arxiv url: http://arxiv.org/abs/2508.17336v2
Date: Thu, 28 Aug 2025 02:26:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-29 11:47:01.185718
Title: Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
Title（参考訳）: 音響・身体共振マイクロホンのためのモーダリティ比音声強調と雑音適応融合
Authors: Yunsik Kim, Yoonyoung Chung,
Abstract要約: 体導マイクロホン信号(BMS)は空中音をバイパスし、強い耐雑音性を提供する。本稿では,BMSと音響マイクロホン信号(AMS)を組み合わせた新しいマルチモーダルフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Body-conduction microphone signals (BMS) bypass airborne sound, providing strong noise resistance. However, a complementary modality is required to compensate for the inherent loss of high-frequency information. In this study, we propose a novel multi-modal framework that combines BMS and acoustic microphone signals (AMS) to achieve both noise suppression and high-frequency reconstruction. Unlike conventional multi-modal approaches that simply merge features, our method employs two specialized networks: a mapping-based model to enhance BMS and a masking-based model to denoise AMS. These networks are integrated through a dynamic fusion mechanism that adapts to local noise conditions, ensuring the optimal use of each modality's strengths. We performed evaluations on the TAPS dataset, augmented with DNS-2023 noise clips, using objective speech quality metrics. The results clearly demonstrate that our approach outperforms single-modal solutions in a wide range of noisy environments.
Abstract（参考訳）: 体導マイクロホン信号(BMS)は空中音をバイパスし、強い耐雑音性を提供する。しかし、高周波情報の固有損失を補うには相補的モダリティが必要である。本研究では,BMSと音響マイクロホン信号(AMS)を組み合わせたマルチモーダル・フレームワークを提案する。特徴をマージする従来のマルチモーダルアプローチとは異なり、本手法では、BMSを強化するマッピングベースモデルと、AMSを識別するマスキングベースモデルという2つの特殊なネットワークを採用している。これらのネットワークは、局所的な雑音条件に適応する動的融合機構を通じて統合され、各モードの強度の最適利用が保証される。音声品質の客観的指標を用いて,DNS-2023ノイズクリップを付加したTAPSデータセットの評価を行った。その結果,本手法は雑音の多い環境において単一モーダル解よりも優れていることが示された。

関連論文リスト

Towards Robust Image Denoising with Scale Equivariance [10.894808298340994]
我々は,空間的一様雑音のトレーニングから,空間的非一様劣化の推論まで,モデルがより適応できるようになることを論じる。本稿では,HNM (Heterogeneous Normalization Module) とIGM (Interactive Gating Module) の2つの主要コンポーネントを備える頑健なブラインド認知フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T00:06:28Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
FM2S: Towards Spatially-Correlated Noise Modeling in Zero-Shot Fluorescence Microscopy Image Denoising [33.383511185170214]
蛍光マイクログラフ・トゥ・セルフ (FM2S) は、3つの重要な革新を通じて効率的な蛍光マイクログラフ・トゥ・セルフ (FM2S) を実現するゼロショットデノイザーである。 FM2Sは平均1.4dBPSNRでCVF-SIDを上回り、AP-BSNの0.1%のパラメータを必要とする。
論文参考訳（メタデータ） (2024-12-13T10:45:25Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文参考訳（メタデータ） (2023-05-23T12:56:01Z)
Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。 4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文参考訳（メタデータ） (2023-01-18T04:54:58Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)
Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。 LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文参考訳（メタデータ） (2020-12-02T22:35:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。