論文の概要: Leveraging Multiple Speech Enhancers for Non-Intrusive Intelligibility Prediction for Hearing-Impaired Listeners
- arxiv url: http://arxiv.org/abs/2509.16979v1
- Date: Sun, 21 Sep 2025 08:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.064414
- Title: Leveraging Multiple Speech Enhancers for Non-Intrusive Intelligibility Prediction for Hearing-Impaired Listeners
- Title(参考訳): 難聴者に対する非侵入的信頼度予測のための複数音声エンハンサの活用
- Authors: Boxuan Cao, Linkai Li, Hanlin Yu, Changgeng Mo, Haoshuai Zhou, Shan Xiang Wang,
- Abstract要約: 本稿では,音声強調器を用いて並列化信号経路を提供する非侵入的知性予測フレームワークを提案する。
予測性能はエンハンサーの選択に依存し,エンハンサーのアンサンブルが最良の結果をもたらすことを示す。
当社のアプローチは、複数のデータセットにまたがる非侵入的ベースラインであるCPC2 Championを一貫して上回ります。
- 参考スコア(独自算出の注目度): 2.249057377377837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech intelligibility evaluation for hearing-impaired (HI) listeners is essential for assessing hearing aid performance, traditionally relying on listening tests or intrusive methods like HASPI. However, these methods require clean reference signals, which are often unavailable in real-world conditions, creating a gap between lab-based and real-world assessments. To address this, we propose a non-intrusive intelligibility prediction framework that leverages speech enhancers to provide a parallel enhanced-signal pathway, enabling robust predictions without reference signals. We evaluate three state-of-the-art enhancers and demonstrate that prediction performance depends on the choice of enhancer, with ensembles of strong enhancers yielding the best results. To improve cross-dataset generalization, we introduce a 2-clips augmentation strategy that enhances listener-specific variability, boosting robustness on unseen datasets. Our approach consistently outperforms the non-intrusive baseline, CPC2 Champion across multiple datasets, highlighting the potential of enhancer-guided non-intrusive intelligibility prediction for real-world applications.
- Abstract(参考訳): 補聴器の聴力評価は,従来は聴力検査やHASPIのような侵入的手法に頼っていた補聴器の聴力評価に不可欠である。
しかし、これらの手法にはクリーンな参照信号が必要であり、実世界の状況では利用できないことが多く、実験室と実世界のアセスメントのギャップが生じる。
そこで本研究では,音声強調器を応用して並列化信号経路を提供する非侵入的知能予測フレームワークを提案し,参照信号なしで堅牢な予測を可能にする。
我々は,3つの最先端エンハンサーを評価し,予測性能がエンハンサーの選択に依存することを示す。
クロスデータセットの一般化を改善するために,リスナ固有の可変性を向上し,未知のデータセットに対するロバスト性を向上する2-clips拡張戦略を導入する。
我々のアプローチは、複数のデータセットにまたがる非侵入的ベースラインであるCPC2 Championを一貫して上回り、現実世界のアプリケーションに対するエンハンサー誘導非侵入的インテリジェンス予測の可能性を強調します。
関連論文リスト
- Rethinking Purity and Diversity in Multi-Behavior Sequential Recommendation from the Frequency Perspective [48.60281642851056]
レコメンデーションシステムでは、ユーザーはブラウジング、クリック、購入などの複数の行動を示すことが多い。
いくつかの行動データは、ユーザー興味のモデリングにも避けられないノイズをもたらします。
これらの研究は、低周波情報は価値があり信頼性が高い傾向にあり、高周波情報はしばしばノイズと関連していることを示している。
論文 参考訳(メタデータ) (2025-08-28T04:55:02Z) - Evaluating and Improving the Robustness of Speech Command Recognition Models to Noise and Distribution Shifts [0.0]
学習条件と入力特徴がOOD条件下での音声キーワード分類器の頑健性と一般化能力に与える影響について検討する。
以上の結果から,いくつかの構成ではノイズ認識訓練が改善することが示唆された。
論文 参考訳(メタデータ) (2025-07-30T22:14:16Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。