論文の概要: Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids
- arxiv url: http://arxiv.org/abs/2603.02724v1
- Date: Tue, 03 Mar 2026 08:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.706856
- Title: Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids
- Title(参考訳): 模擬伝達関数を用いた単一マイクロホンによる補聴器用音声検出
- Authors: Mathuranathan Mayuravaani, W. Bastiaan Kleijn, Andrew Lensen, Charlotte Sørensen,
- Abstract要約: 本稿では,単一マイクを用いた補聴器における独自の音声検出(OVD)のためのシミュレーションに基づくアプローチを提案する。
本研究では, シミュレーション音響伝達関数(ATF)に基づくデータ拡張戦略を提案する。
実験結果は、模擬ヘッド・アンド・トルソ試験データに対して95.52%の精度を示した。
- 参考スコア(独自算出の注目度): 9.42559539752919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simulation-based approach to own voice detection (OVD) in hearing aids using a single microphone. While OVD can significantly improve user comfort and speech intelligibility, existing solutions often rely on multiple microphones or additional sensors, increasing device complexity and cost. To enable ML-based OVD without requiring costly transfer-function measurements, we propose a data augmentation strategy based on simulated acoustic transfer functions (ATFs) that expose the model to a wide range of spatial propagation conditions. A transformer-based classifier is first trained on analytically generated ATFs and then progressively fine-tuned using numerically simulated ATFs, transitioning from a rigid-sphere model to a detailed head-and-torso representation. This hierarchical adaptation enabled the model to refine its spatial understanding while maintaining generalization. Experimental results show 95.52% accuracy on simulated head-and-torso test data. Under short-duration conditions, the model maintained 90.02% accuracy with one-second utterances. On real hearing aid recordings, the model achieved 80% accuracy without fine-tuning, aided by lightweight test-time feature compensation. This highlights the model's ability to generalize from simulated to real-world conditions, demonstrating practical viability and pointing toward a promising direction for future hearing aid design.
- Abstract(参考訳): 本稿では,単一マイクを用いた補聴器における独自の音声検出(OVD)のためのシミュレーションに基づくアプローチを提案する。
OVDはユーザーの快適さと音声の了解度を大幅に向上させるが、既存のソリューションは複数のマイクや追加のセンサーに依存し、デバイスの複雑さとコストを増大させる。
MLに基づくOVDを実現するために,シミュレーション音響伝達関数(ATF)に基づくデータ拡張手法を提案する。
変圧器に基づく分類器は、まず解析的に生成されたAFF上で訓練され、次に数値シミュレーションされたATFを用いて段階的に微調整され、剛球モデルから詳細なヘッド・アンド・トルソ表現へと遷移する。
この階層的適応により、モデルは一般化を維持しながら空間的理解を洗練できる。
実験結果は、模擬ヘッド・アンド・トルソ試験データに対して95.52%の精度を示した。
短時間の条件下では、1秒の発話で90.02%の精度を維持した。
実際の補聴器記録では、このモデルは微調整なしで80%の精度を達成し、軽量な試験時間特徴補償によって支援された。
このことは、モデルがシミュレーションから現実の状況へ一般化する能力を強調し、実用可能性を示し、将来の補聴器設計のための有望な方向を指し示している。
関連論文リスト
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening [0.7136933021609076]
本研究では,F.A.S.T.アセスメントで収集したデータをもとに,高速かつ非侵襲的な2次脳卒中自動スクリーニングのための多モード深層学習フレームワークを提案する。
提案手法は, 表情, 音声信号, 上体動作からの相補的な情報を統合し, 診断の堅牢性を高める。
論文 参考訳(メタデータ) (2026-01-17T03:35:39Z) - ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals [8.411477071838592]
本稿では,周波数位置埋め込みと高度なバンド分割アーキテクチャを組み合わせた新しい基礎モデルECHOを提案する。
本手法は,様々な種類の機械信号データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-08-20T13:10:44Z) - Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation [0.0]
統一マイクロホン変換(Unified Microphone Conversion)は、音声イベント分類システムにおいて、デバイス変動を抑えるために設計された統合生成フレームワークである。
提案手法は最先端技術よりも2.6%優れ,マクロ平均F1スコアの変動率を0.8%低減する。
論文 参考訳(メタデータ) (2024-10-23T23:10:09Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Roll-Drop: accounting for observation noise with a single parameter [15.644420658691411]
本稿では,Deep-Reinforcement Learning(DRL)におけるsim-to-realのための簡単な戦略を提案する。
シミュレーション中にドロップアウトを使用して、各状態の分布を明示的にモデル化することなく、デプロイメント中の観測ノイズを考慮します。
観測では,最大25%のノイズを注入した場合の80%の成功率を示し,ベースラインの2倍の堅牢性を示した。
論文 参考訳(メタデータ) (2023-04-25T20:52:51Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。