論文の概要: Audio-Visual Speech Inpainting with Deep Learning
- arxiv url: http://arxiv.org/abs/2010.04556v2
- Date: Wed, 3 Feb 2021 11:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:33:57.081029
- Title: Audio-Visual Speech Inpainting with Deep Learning
- Title(参考訳): 深層学習による音声・映像音声の表現
- Authors: Giovanni Morrone, Daniel Michelsanti, Zheng-Hua Tan, Jesper Jensen
- Abstract要約: 音声信号に100msから1600msの間隔を印字し、視覚が異なる期間のギャップにもたらす貢献について検討した。
以上の結果から,音声のみの音声塗装手法の性能は,差が大きくなると急速に低下することがわかった。
マルチタスク学習が効果的であることは示していますが、パフォーマンスへの最大の貢献はビジョンによるものです。
- 参考スコア(独自算出の注目度): 30.59696039318939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a deep-learning-based framework for audio-visual
speech inpainting, i.e., the task of restoring the missing parts of an acoustic
speech signal from reliable audio context and uncorrupted visual information.
Recent work focuses solely on audio-only methods and generally aims at
inpainting music signals, which show highly different structure than speech.
Instead, we inpaint speech signals with gaps ranging from 100 ms to 1600 ms to
investigate the contribution that vision can provide for gaps of different
duration. We also experiment with a multi-task learning approach where a phone
recognition task is learned together with speech inpainting. Results show that
the performance of audio-only speech inpainting approaches degrades rapidly
when gaps get large, while the proposed audio-visual approach is able to
plausibly restore missing information. In addition, we show that multi-task
learning is effective, although the largest contribution to performance comes
from vision.
- Abstract(参考訳): 本稿では,音響音声信号の欠落した部分を,信頼性の高い音声コンテキストから復元し,不正確な視覚情報を得るための,深層学習に基づく音声・視覚音声の着色処理フレームワークを提案する。
最近の研究は、音声のみの手法にのみ焦点をあて、一般的には、音声と非常に異なる構造を示す音楽信号の塗布を目標としている。
その代わり、100msから1600msの間隔で音声信号に塗り込み、視覚が異なる期間のギャップにもたらす貢献について調査する。
また,音声認識タスクを音声認識と併用して学習するマルチタスク学習手法の実験を行った。
以上の結果から,音声のみの音声塗装手法の性能は,ギャップが大きくなると急速に低下するが,提案手法では欠落した情報を確実に復元できることがわかった。
さらに,マルチタスク学習が効果的であることを示す。
関連論文リスト
- Deep Video Inpainting Guided by Audio-Visual Self-Supervision [25.841796702924444]
人間は、オーディオ視覚イベントに関する以前の知識に基づいて、聴覚情報からシーンを簡単に想像することができる。
本稿では,深層学習モデルにおける人間の本能を模倣し,映像の画質向上を図る。
論文 参考訳(メタデータ) (2023-10-11T17:03:21Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。