論文の概要: Bone-conduction Guided Multimodal Speech Enhancement with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.12354v1
- Date: Sun, 18 Jan 2026 11:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.590864
- Title: Bone-conduction Guided Multimodal Speech Enhancement with Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルを用いた骨伝導誘導マルチモーダル音声強調
- Authors: Sina Khanagha, Bunlong Lay, Timo Gerkmann,
- Abstract要約: 単一チャンネル音声強調モデルでは雑音環境下での顕著な性能劣化に直面している。
本稿では,骨伝導センサと空気伝導マイクロホンを統合した新しいマルチモーダル音声強調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.133959898159688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-channel speech enhancement models face significant performance degradation in extremely noisy environments. While prior work has shown that complementary bone-conducted speech can guide enhancement, effective integration of this noise-immune modality remains a challenge. This paper introduces a novel multimodal speech enhancement framework that integrates bone-conduction sensors with air-conducted microphones using a conditional diffusion model. Our proposed model significantly outperforms previously established multimodal techniques and a powerful diffusion-based single-modal baseline across a wide range of acoustic conditions.
- Abstract(参考訳): 単一チャンネル音声強調モデルは非常にノイズの多い環境では顕著な性能劣化に直面している。
従来の研究は、補足的な骨伝導音声が強化を導くことを示したが、このノイズ免疫の効果的な統合は依然として課題である。
本稿では, 骨導センサと空気導電マイクロホンを統合した, 条件付き拡散モデルを用いた新しいマルチモーダル音声強調フレームワークを提案する。
提案手法は, 従来確立されていたマルチモーダル手法と, 広範囲の音響条件において強力な拡散型単一モーダルベースラインよりも優れていた。
関連論文リスト
- Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework [0.0]
体導マイクロホン信号(BMS)は空中音をバイパスし、強い耐雑音性を提供する。
本稿では,BMSと音響マイクロホン信号(AMS)を組み合わせた新しいマルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-24T12:45:34Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Extract and Diffuse: Latent Integration for Improved Diffusion-based Speech and Vocal Enhancement [27.102725346207976]
拡散に基づく生成モデルは、近年、発声と発声の強化において顕著な成果を上げている。
識別モデルによって生成される潜在表現を統合して音声と音声の強調を改善する新しいスコアベース拡散モデルであるEx-Diffを提案する。
論文 参考訳(メタデータ) (2024-09-15T07:25:08Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。