論文の概要: End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments
- arxiv url: http://arxiv.org/abs/2508.13576v1
- Date: Tue, 19 Aug 2025 07:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.828689
- Title: End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments
- Title(参考訳): 騒音環境における人工内耳音響符号化のためのエンド・ツー・エンド・オーディオ・ビジュアル・ラーニング
- Authors: Meng-Ping Lin, Enoch Hsin-Ho Huang, Shao-Yi Chien, Yu Tsao,
- Abstract要約: 本稿では,深層学習に基づくElectronNet-CS(ECS)音声符号化戦略のための事前処理モジュールとして,AVSEモデルを利用した新しいノイズ抑圧型CIシステムAVSE-ECSを提案する。
実験結果から,提案手法は雑音条件下でのECS戦略より優れており,客観的音声の明瞭度が向上していることが示唆された。
- 参考スコア(独自算出の注目度): 24.830980285374416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cochlear implant (CI) is a remarkable biomedical device that successfully enables individuals with severe-to-profound hearing loss to perceive sound by converting speech into electrical stimulation signals. Despite advancements in the performance of recent CI systems, speech comprehension in noisy or reverberant conditions remains a challenge. Recent and ongoing developments in deep learning reveal promising opportunities for enhancing CI sound coding capabilities, not only through replicating traditional signal processing methods with neural networks, but also through integrating visual cues as auxiliary data for multimodal speech processing. Therefore, this paper introduces a novel noise-suppressing CI system, AVSE-ECS, which utilizes an audio-visual speech enhancement (AVSE) model as a pre-processing module for the deep-learning-based ElectrodeNet-CS (ECS) sound coding strategy. Specifically, a joint training approach is applied to model AVSE-ECS, an end-to-end CI system. Experimental results indicate that the proposed method outperforms the previous ECS strategy in noisy conditions, with improved objective speech intelligibility scores. The methods and findings in this study demonstrate the feasibility and potential of using deep learning to integrate the AVSE module into an end-to-end CI system
- Abstract(参考訳): 人工内耳(CI)は、音声を電気的刺激信号に変換することで、重度から先進的な聴覚障害を持つ個人が音を知覚できる優れた生体医療装置である。
近年のCIシステムの性能向上にもかかわらず、雑音や残響条件における音声理解は依然として課題である。
近年のディープラーニング開発は、従来の信号処理手法をニューラルネットワークで複製するだけでなく、視覚的手がかりをマルチモーダル音声処理の補助データとして統合することで、CI音声符号化能力を高める有望な機会を明らかにしている。
そこで本稿では,深層学習に基づくElectronNet-CS(ECS)音声符号化のための事前処理モジュールとして,AVSEモデルを用いた新しいノイズ抑圧型CIシステムAVSE-ECSを提案する。
具体的には、エンドツーエンドCIシステムであるAVSE-ECSのモデルにジョイントトレーニングアプローチを適用する。
実験結果から,提案手法は雑音条件下でのECS戦略より優れており,客観的音声の明瞭度が向上していることが示唆された。
本研究では,AVSEモジュールをエンド・ツー・エンドCIシステムに統合する深層学習の可能性と可能性を示す。
関連論文リスト
- Advances in Intelligent Hearing Aids: Deep Learning Approaches to Selective Noise Cancellation [0.0]
本稿では,AI駆動型補聴器用選択的ノイズキャンセリングの進歩を評価する。
ディープラーニングアーキテクチャ、ハードウェアデプロイメント戦略、臨床検証研究、ユーザ中心設計などにわたる知見を合成する。
主な発見は、従来の手法よりも大幅に向上し、18.3dBのSI-SDRをノイズ-残響ベンチマークで改善した。
論文 参考訳(メタデータ) (2025-06-25T15:05:16Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives [2.608119698700597]
本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。
このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-03-17T11:28:23Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。