論文の概要: A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning
- arxiv url: http://arxiv.org/abs/2202.05756v1
- Date: Fri, 11 Feb 2022 16:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:34:37.984817
- Title: A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning
- Title(参考訳): 正準相関と深層学習に基づく新しい音声明瞭度向上モデル
- Authors: Tassadaq Hussain, Muhammad Diyan, Mandar Gogate, Kia Dashtipour, Ahsan
Adeel, Yu Tsao, Amir Hussain
- Abstract要約: 完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.913738983870621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep learning (DL) based approaches to speech intelligibility
enhancement in noisy environments are often trained to minimise the feature
distance between noise-free speech and enhanced speech signals. Despite
improving the speech quality, such approaches do not deliver required levels of
speech intelligibility in everyday noisy environments .
Intelligibility-oriented (I-O) loss functions have recently been developed to
train DL approaches for robust speech enhancement. Here, we formulate, for the
first time, a novel canonical correlation based I-O loss function to more
effectively train DL algorithms. Specifically, we present a
canonical-correlation based short-time objective intelligibility (CC-STOI) cost
function to train a fully convolutional neural network (FCN) model. We carry
out comparative simulation experiments to show that our CC-STOI based speech
enhancement framework outperforms state-of-the-art DL models trained with
conventional distance-based and STOI-based loss functions, using objective and
subjective evaluation measures for case of both unseen speakers and noises.
Ongoing future work is evaluating the proposed approach for design of robust
hearing-assistive technology.
- Abstract(参考訳): 雑音環境における音声明瞭度向上のための現在のディープラーニング(dl)に基づくアプローチは、ノイズのない音声と強調音声信号との間の特徴距離を最小化するために訓練されることが多い。
音声品質の改善にもかかわらず、こうしたアプローチは日常的な騒音環境において必要なレベルの音声知性を提供しない。
可知性指向(i-o)損失関数は、ロバストな音声強調のためのdlアプローチを訓練するために最近開発された。
ここでは、新しい標準相関に基づくI-O損失関数を初めて定式化し、DLアルゴリズムをより効果的に訓練する。
具体的には,完全畳み込みニューラルネットワーク(fcn)モデルを訓練するために,正準相関型短時間目的知性(cc-stoi)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数を用いて訓練された最先端のDLモデルよりも優れており、未確認話者と雑音の両方の場合の客観的および主観的評価尺度を用いて比較シミュレーション実験を行った。
今後,ロバストな補聴器設計のための提案手法の評価を行う。
関連論文リスト
- Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - A Spectral Energy Distance for Parallel Speech Synthesis [29.14723501889278]
音声合成は重要な実用的生成モデル問題である。
そこで本研究では,高度に並列な音声モデルの学習を可能にする学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。