論文の概要: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2111.09642v1
- Date: Thu, 18 Nov 2021 11:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:51:55.749192
- Title: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
- Title(参考訳): 知能指向型音声音声強調に向けて
- Authors: Tassadaq Hussain, Mandar Gogate, Kia Dashtipour, Amir Hussain
- Abstract要約: 本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
- 参考スコア(独自算出の注目度): 8.19144665585397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning (DL) based speech enhancement approaches are generally
optimised to minimise the distance between clean and enhanced speech features.
These often result in improved speech quality however they suffer from a lack
of generalisation and may not deliver the required speech intelligibility in
real noisy situations. In an attempt to address these challenges, researchers
have explored intelligibility-oriented (I-O) loss functions and integration of
audio-visual (AV) information for more robust speech enhancement (SE). In this
paper, we introduce DL based I-O SE algorithms exploiting AV information, which
is a novel and previously unexplored research direction. Specifically, we
present a fully convolutional AV SE model that uses a modified short-time
objective intelligibility (STOI) metric as a training cost function. To the
best of our knowledge, this is the first work that exploits the integration of
AV modalities with an I-O based loss function for SE. Comparative experimental
results demonstrate that our proposed I-O AV SE framework outperforms
audio-only (AO) and AV models trained with conventional distance-based loss
functions, in terms of standard objective evaluation measures when dealing with
unseen speakers and noises.
- Abstract(参考訳): 既存のディープラーニング(DL)に基づく音声強調手法は、クリーンな音声特徴と強化された音声特徴との距離を最小化するために一般的に最適化されている。
これらはしばしば音声品質の向上をもたらすが、一般化の欠如に苦しめられ、本当に騒がしい状況では必要な音声知性を提供できない。
これらの課題に対処するため、研究者はi-o(intelligibility-oriented)損失関数と、より頑健な音声強調(se)のためのav情報の統合を検討してきた。
本稿では,新しい研究方向であるAV情報を利用したDLベースのI-O SEアルゴリズムを提案する。
具体的には,完全畳み込み型av seモデルを提案し,学習コスト関数としてstoi(short-time objective intelligibility)メトリックを用いた。
我々の知る限りでは、これはSEのためのI-Oベースの損失関数とAVモダリティの統合を利用する最初の研究である。
比較実験の結果,提案したI-O AV SEフレームワークは,従来の距離に基づく損失関数で訓練されたAOモデルとAVモデルよりも優れており,不明瞭な話者や雑音に対処する際の客観的評価の基準となる。
関連論文リスト
- Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Towards Robust Real-time Audio-Visual Speech Enhancement [8.183895606832623]
本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:54:45Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。