論文の概要: Leveraging Spatial Cues from Cochlear Implant Microphones to Efficiently Enhance Speech Separation in Real-World Listening Scenes
- arxiv url: http://arxiv.org/abs/2501.14610v1
- Date: Fri, 24 Jan 2025 16:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:56.947602
- Title: Leveraging Spatial Cues from Cochlear Implant Microphones to Efficiently Enhance Speech Separation in Real-World Listening Scenes
- Title(参考訳): 人工内耳補聴器からの空間的手がかりの活用と実世界聴取シーンにおける音声分離の効率化
- Authors: Feyisayo Olalere, Kiki van der Heijden, Christiaan H. Stronks, Jeroen Briaire, Johan HM Frijns, Marcel van Gerven,
- Abstract要約: 実世界の音響シーンが音声分離に与える影響を定量化し,空間的手がかりが分離品質を効率的に向上する方法について検討する。
その結果,空間的手がかり(暗黙的・明示的の両方)は,空間的に分離された話者との混合の分離を改善することがわかった。
明示的な空間的手がかりは、暗黙的な空間的手がかりが弱い場合に特に有益である。
これらの結果は、日常的なリスニングシナリオにおける一般化性を改善するために、実世界のデータに対するトレーニングモデルの重要性を強調している。
- 参考スコア(独自算出の注目度): 1.1081718316044291
- License:
- Abstract: Speech separation approaches for single-channel, dry speech mixtures have significantly improved. However, real-world spatial and reverberant acoustic environments remain challenging, limiting the effectiveness of these approaches for assistive hearing devices like cochlear implants (CIs). To address this, we quantify the impact of real-world acoustic scenes on speech separation and explore how spatial cues can enhance separation quality efficiently. We analyze performance based on implicit spatial cues (inherent in the acoustic input and learned by the model) and explicit spatial cues (manually calculated spatial features added as auxiliary inputs). Our findings show that spatial cues (both implicit and explicit) improve separation for mixtures with spatially separated and nearby talkers. Furthermore, spatial cues enhance separation when spectral cues are ambiguous, such as when voices are similar. Explicit spatial cues are particularly beneficial when implicit spatial cues are weak. For instance, single CI microphone recordings provide weaker implicit spatial cues than bilateral CIs, but even single CIs benefit from explicit cues. These results emphasize the importance of training models on real-world data to improve generalizability in everyday listening scenarios. Additionally, our statistical analyses offer insights into how data properties influence model performance, supporting the development of efficient speech separation approaches for CIs and other assistive devices in real-world settings.
- Abstract(参考訳): 単チャンネル・ドライ音声混合に対する音声分離手法は大幅に改善された。
しかし、実際の空間的・残響的な音響環境は依然として困難であり、人工内耳(CI)のような補聴器に対するこれらのアプローチの有効性を制限している。
これを解決するために,実世界の音響シーンが音声分離に与える影響を定量化し,空間的手がかりが分離品質を効率的に向上する方法について検討する。
本研究では,暗黙的な空間的手がかり(音響入力とモデルによる学習)と明示的な空間的手がかり(補助入力として手動計算された空間的特徴)に基づいて,その性能を解析する。
その結果,空間的手がかり(暗黙的・暗示的の両方)は,空間的に分離された話者と近隣の話者との混合物の分離を改善することが示唆された。
さらに、空間的手がかりは、スペクトル的手がかりがあいまいである場合、例えば音声が類似している場合など、分離を高める。
明示的な空間的手がかりは、暗黙的な空間的手がかりが弱い場合に特に有益である。
例えば、単一のCIマイクロフォン記録は、両側CIよりも暗黙的な空間的手がかりが弱いが、単一のCIでさえ明示的な手がかりの恩恵を受ける。
これらの結果は、日常的なリスニングシナリオにおける一般化性を改善するために、実世界のデータに対するトレーニングモデルの重要性を強調している。
さらに、我々の統計分析は、データ特性がモデル性能にどのように影響するかを洞察し、実環境におけるCIやその他の補助装置の効率的な音声分離手法の開発を支援する。
関連論文リスト
- Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Spatial mixup: Directional loudness modification as data augmentation
for sound event localization and detection [9.0259157539478]
データ拡張のためのパラメトリック空間音響効果の応用として空間混合を提案する。
修正は特定の方向から到着するシグナルを増強または抑制するが、効果は顕著ではない。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースライン上での性能が向上する。
論文 参考訳(メタデータ) (2021-10-12T16:16:58Z) - Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in
High-order Latent Domain [34.23260020137834]
本稿では,粗大な分離フレームワークに従うSRSSN(Stepwise-Refining Speech separation Network)を提案する。
まず1次潜在領域を学び、符号化空間を定義し、粗い位相で大まかな分離を行う。
その後、既存の潜伏領域の各基底関数に沿って新しい潜伏ドメインを学び、精製フェーズで高次潜伏ドメインを得る。
論文 参考訳(メタデータ) (2021-10-10T13:21:16Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。