Fugu-MT 論文翻訳(概要): Towards Intelligibility-Oriented Audio-Visual Speech Enhancement

論文の概要: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement

arxiv url: http://arxiv.org/abs/2111.09642v1
Date: Thu, 18 Nov 2021 11:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 13:51:55.749192
Title: Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
Title（参考訳）: 知能指向型音声音声強調に向けて
Authors: Tassadaq Hussain, Mandar Gogate, Kia Dashtipour, Amir Hussain
Abstract要約: 本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
参考スコア（独自算出の注目度）: 8.19144665585397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-oriented (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.
Abstract（参考訳）: 既存のディープラーニング(DL)に基づく音声強調手法は、クリーンな音声特徴と強化された音声特徴との距離を最小化するために一般的に最適化されている。これらはしばしば音声品質の向上をもたらすが、一般化の欠如に苦しめられ、本当に騒がしい状況では必要な音声知性を提供できない。これらの課題に対処するため、研究者はi-o(intelligibility-oriented)損失関数と、より頑健な音声強調(se)のためのav情報の統合を検討してきた。本稿では,新しい研究方向であるAV情報を利用したDLベースのI-O SEアルゴリズムを提案する。具体的には,完全畳み込み型av seモデルを提案し,学習コスト関数としてstoi(short-time objective intelligibility)メトリックを用いた。我々の知る限りでは、これはSEのためのI-Oベースの損失関数とAVモダリティの統合を利用する最初の研究である。比較実験の結果,提案したI-O AV SEフレームワークは,従来の距離に基づく損失関数で訓練されたAOモデルとAVモデルよりも優れており,不明瞭な話者や雑音に対処する際の客観的評価の基準となる。

関連論文リスト

$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-06T18:00:14Z)
Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文参考訳（メタデータ） (2024-12-26T00:26:45Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。提案するTalkNCEは,新しい会話認識型コントラスト損失である。提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-21T17:59:11Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
A Novel Speech Intelligibility Enhancement Model based on CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。 CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-02-11T16:48:41Z)
Towards Robust Real-time Audio-Visual Speech Enhancement [8.183895606832623]
本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
論文参考訳（メタデータ） (2021-12-16T17:54:45Z)
Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文参考訳（メタデータ） (2020-08-30T17:29:19Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。