論文の概要: A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
- arxiv url: http://arxiv.org/abs/2508.07561v1
- Date: Mon, 11 Aug 2025 02:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.915254
- Title: A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
- Title(参考訳): 携帯型全二重音声対話のための小型プリント音響エコーキャンセラソリューション
- Authors: Yiheng Jiang, Tian Biao,
- Abstract要約: 本稿では,様々なハードウェア,非線形歪み,長時間の待ち時間といったシナリオにおける課題に対処するニューラルネットワークベースのソリューションを提案する。
プログレッシブ・ラーニング(Progressive Learning)は、AEC増強効果を改善するために使用され、それによって音声品質が大幅に向上する。
- 参考スコア(独自算出の注目度): 1.5929852667227002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In full-duplex speech interaction systems, effective Acoustic Echo Cancellation (AEC) is crucial for recovering echo-contaminated speech. This paper presents a neural network-based AEC solution to address challenges in mobile scenarios with varying hardware, nonlinear distortions and long latency. We first incorporate diverse data augmentation strategies to enhance the model's robustness across various environments. Moreover, progressive learning is employed to incrementally improve AEC effectiveness, resulting in a considerable improvement in speech quality. To further optimize AEC's downstream applications, we introduce a novel post-processing strategy employing tailored parameters designed specifically for tasks such as Voice Activity Detection (VAD) and Automatic Speech Recognition (ASR), thus enhancing their overall efficacy. Finally, our method employs a small-footprint model with streaming inference, enabling seamless deployment on mobile devices. Empirical results demonstrate effectiveness of the proposed method in Echo Return Loss Enhancement and Perceptual Evaluation of Speech Quality, alongside significant improvements in both VAD and ASR results.
- Abstract(参考訳): 全二重音声対話システムでは、エコー汚染音声の回復に有効な音響エコーキャンセラ(AEC)が不可欠である。
本稿では,様々なハードウェア,非線形歪み,長時間の待ち時間を持つモバイルシナリオの課題に対処するニューラルネットワークベースのAECソリューションを提案する。
まず、さまざまな環境におけるモデルの堅牢性を高めるために、多様なデータ拡張戦略を取り入れます。
さらに、AECの有効性を漸進的に向上させるため、進行学習が採用され、音声品質が大幅に向上する。
AECの下流アプリケーションをさらに最適化するために、音声活動検出(VAD)や自動音声認識(ASR)などのタスクに特化して設計された調整されたパラメータを用いた新しい後処理戦略を導入し、全体的な効果を高める。
最後に,本手法では,ストリーミング推論を用いた小型フットプリントモデルを用いて,モバイルデバイスへのシームレスなデプロイを実現する。
実験の結果,提案手法の有効性は,音声品質のエコー戻り損失向上と知覚的評価において示され,VADとASRの双方で有意な改善が見られた。
関連論文リスト
- Test-Time Training for Speech Enhancement [2.9598903898834497]
本稿では,音声強調のためのTTT(Test-Time Training)の新たな適用法を提案する。
予測不可能なノイズ条件とドメインシフトによって引き起こされる課題に対処する。
音声品質の指標間で一貫した改善が見られ、ベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2025-08-03T17:02:55Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。