論文の概要: Direction of Arrival Correction through Speech Quality Feedback
- arxiv url: http://arxiv.org/abs/2408.07234v1
- Date: Tue, 13 Aug 2024 23:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:35:46.752002
- Title: Direction of Arrival Correction through Speech Quality Feedback
- Title(参考訳): 音声品質フィードバックによる位置補正の方向
- Authors: Caleb Rascon,
- Abstract要約: Demucs Denoiserモデルは、方向推定における誤差に敏感である。
本研究では,その拡張出力のリアルタイム推定音声品質を観測変数として用いたDOA補正手法を提案する。
提案システムは,音声品質のみをガイドとして,最大15$oの誤りをリアルタイムに補正することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time speech enhancement has began to rise in performance, and the Demucs Denoiser model has recently demonstrated strong performance in multiple-speech-source scenarios when accompanied by a location-based speech target selection strategy. However, it has shown to be sensitive to errors in the direction-of-arrival (DOA) estimation. In this work, a DOA correction scheme is proposed that uses the real-time estimated speech quality of its enhanced output as the observed variable in an Adam-based optimization feedback loop to find the correct DOA. In spite of the high variability of the speech quality estimation, the proposed system is able to correct in real-time an error of up to 15$^o$ using only the speech quality as its guide. Several insights are provided for future versions of the proposed system to speed up convergence and further reduce the speech quality estimation variability.
- Abstract(参考訳): Demucs Denoiserモデルは、位置情報に基づく音声ターゲット選択戦略を伴って、複数の音声ソースシナリオで強い性能を示した。
しかし,DOA推定における誤差に敏感であることが示されている。
本研究では,Adam-based optimization feedback loop の観測変数として拡張出力のリアルタイム推定音声品質を利用するDOA補正手法を提案する。
音声品質推定のばらつきが高いにもかかわらず,提案システムは,音声品質のみをガイドとして,最大15$^o$の誤差をリアルタイムに補正することができる。
提案方式の今後のバージョンについては,収束を高速化し,音声品質推定のばらつきを低減すべく,いくつかの知見が得られた。
関連論文リスト
- SpeechQE: Estimating the Quality of Direct Speech Translation [23.83384136789891]
音声翻訳(SpeechQE)の品質評価のタスクを定式化し、ベンチマークを構築し、カスケードアーキテクチャとエンドツーエンドアーキテクチャに基づくシステム群を評価する。
提案手法は, ケースドシステムにおけるテキストを対象とした品質推定システムよりも, 直接音声翻訳の品質を推定するのに適していると考えられる。
論文 参考訳(メタデータ) (2024-10-28T19:50:04Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。