論文の概要: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2111.09642v1
- Date: Thu, 18 Nov 2021 11:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:51:55.749192
- Title: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
- Title(参考訳): 知能指向型音声音声強調に向けて
- Authors: Tassadaq Hussain, Mandar Gogate, Kia Dashtipour, Amir Hussain
- Abstract要約: 本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
- 参考スコア(独自算出の注目度): 8.19144665585397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning (DL) based speech enhancement approaches are generally
optimised to minimise the distance between clean and enhanced speech features.
These often result in improved speech quality however they suffer from a lack
of generalisation and may not deliver the required speech intelligibility in
real noisy situations. In an attempt to address these challenges, researchers
have explored intelligibility-oriented (I-O) loss functions and integration of
audio-visual (AV) information for more robust speech enhancement (SE). In this
paper, we introduce DL based I-O SE algorithms exploiting AV information, which
is a novel and previously unexplored research direction. Specifically, we
present a fully convolutional AV SE model that uses a modified short-time
objective intelligibility (STOI) metric as a training cost function. To the
best of our knowledge, this is the first work that exploits the integration of
AV modalities with an I-O based loss function for SE. Comparative experimental
results demonstrate that our proposed I-O AV SE framework outperforms
audio-only (AO) and AV models trained with conventional distance-based loss
functions, in terms of standard objective evaluation measures when dealing with
unseen speakers and noises.
- Abstract(参考訳): 既存のディープラーニング(DL)に基づく音声強調手法は、クリーンな音声特徴と強化された音声特徴との距離を最小化するために一般的に最適化されている。
これらはしばしば音声品質の向上をもたらすが、一般化の欠如に苦しめられ、本当に騒がしい状況では必要な音声知性を提供できない。
これらの課題に対処するため、研究者はi-o(intelligibility-oriented)損失関数と、より頑健な音声強調(se)のためのav情報の統合を検討してきた。
本稿では,新しい研究方向であるAV情報を利用したDLベースのI-O SEアルゴリズムを提案する。
具体的には,完全畳み込み型av seモデルを提案し,学習コスト関数としてstoi(short-time objective intelligibility)メトリックを用いた。
我々の知る限りでは、これはSEのためのI-Oベースの損失関数とAVモダリティの統合を利用する最初の研究である。
比較実験の結果,提案したI-O AV SEフレームワークは,従来の距離に基づく損失関数で訓練されたAOモデルとAVモデルよりも優れており,不明瞭な話者や雑音に対処する際の客観的評価の基準となる。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Towards Robust Real-time Audio-Visual Speech Enhancement [8.183895606832623]
本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:54:45Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。