論文の概要: An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation
- arxiv url: http://arxiv.org/abs/2008.09586v2
- Date: Fri, 12 Mar 2021 22:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 22:29:10.534405
- Title: An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation
- Title(参考訳): ディープラーニングに基づく音声強調と分離の概観
- Authors: Daniel Michelsanti, Zheng-Hua Tan, Shi-Xiong Zhang, Yong Xu, Meng Yu,
Dong Yu, and Jesper Jensen
- Abstract要約: 音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
- 参考スコア(独自算出の注目度): 57.68765353264689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement and speech separation are two related tasks, whose purpose
is to extract either one or more target speech signals, respectively, from a
mixture of sounds generated by several sources. Traditionally, these tasks have
been tackled using signal processing and machine learning techniques applied to
the available acoustic signals. Since the visual aspect of speech is
essentially unaffected by the acoustic environment, visual information from the
target speakers, such as lip movements and facial expressions, has also been
used for speech enhancement and speech separation systems. In order to
efficiently fuse acoustic and visual information, researchers have exploited
the flexibility of data-driven approaches, specifically deep learning,
achieving strong performance. The ceaseless proposal of a large number of
techniques to extract features and fuse multimodal information has highlighted
the need for an overview that comprehensively describes and discusses
audio-visual speech enhancement and separation based on deep learning. In this
paper, we provide a systematic survey of this research topic, focusing on the
main elements that characterise the systems in the literature: acoustic
features; visual features; deep learning methods; fusion techniques; training
targets and objective functions. In addition, we review deep-learning-based
methods for speech reconstruction from silent videos and audio-visual sound
source separation for non-speech signals, since these methods can be more or
less directly applied to audio-visual speech enhancement and separation.
Finally, we survey commonly employed audio-visual speech datasets, given their
central role in the development of data-driven approaches, and evaluation
methods, because they are generally used to compare different systems and
determine their performance.
- Abstract(参考訳): 音声強調と音声分離は,複数の音源からそれぞれ1つ以上のターゲット音声信号を抽出することを目的とした2つの関連課題である。
従来、これらのタスクは、利用可能な音響信号に適用する信号処理と機械学習技術を用いて取り組まれてきた。
音声の視覚的側面は基本的に音響環境の影響を受けないため、唇の動きや表情などのターゲット話者からの視覚情報も音声強調や音声分離システムに利用されてきた。
音響情報と視覚情報を効率的に融合するために、研究者はデータ駆動アプローチ、特にディープラーニングの柔軟性を活用し、強力なパフォーマンスを実現している。
特徴を抽出し、マルチモーダル情報を融合する多数の手法の絶え間ない提案は、ディープラーニングに基づく音声・視覚音声の強調と分離を包括的に記述し議論する概要の必要性を強調している。
本稿では,本研究の主題について,音響的特徴,視覚的特徴,深層学習法,融合技術,訓練目標,目的関数など,文学におけるシステムの特徴を特徴付ける要素に着目した体系的な調査を行う。
さらに,非音声信号に対するサイレントビデオからの音声再構成と音声-視覚音源分離の深層学習に基づく手法について検討した。
最後に,データ駆動型アプローチの開発において中心的な役割を担っている音声・視覚音声データセットと評価手法について検討した。
関連論文リスト
- Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction [13.5641621193917]
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
生成した音声によって伝達される意味情報が、唇の動きによって伝達される意味情報と一致することを保証するために、対照的な意味マッチング損失を導入する。
論文 参考訳(メタデータ) (2024-04-19T09:08:44Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。