論文の概要: Learning Audio-Visual Dereverberation
- arxiv url: http://arxiv.org/abs/2106.07732v1
- Date: Mon, 14 Jun 2021 20:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 09:00:23.891006
- Title: Learning Audio-Visual Dereverberation
- Title(参考訳): オーディオ・ビジュアル・デバーベレーションの学習
- Authors: Changan Chen, Wei Sun, David Harwath, Kristen Grauman
- Abstract要約: 環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
- 参考スコア(独自算出の注目度): 87.52880019747435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reverberation from audio reflecting off surfaces and objects in the
environment not only degrades the quality of speech for human perception, but
also severely impacts the accuracy of automatic speech recognition. Prior work
attempts to remove reverberation based on the audio modality only. Our idea is
to learn to dereverberate speech from audio-visual observations. The visual
environment surrounding a human speaker reveals important cues about the room
geometry, materials, and speaker location, all of which influence the precise
reverberation effects in the audio stream. We introduce Visually-Informed
Dereverberation of Audio (VIDA), an end-to-end approach that learns to remove
reverberation based on both the observed sounds and visual scene. In support of
this new task, we develop a large-scale dataset that uses realistic acoustic
renderings of speech in real-world 3D scans of homes offering a variety of room
acoustics. Demonstrating our approach on both simulated and real imagery for
speech enhancement, speech recognition, and speaker identification, we show it
achieves state-of-the-art performance and substantially improves over
traditional audio-only methods. Project page:
http://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation.
- Abstract(参考訳): 環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
以前の作業では、オーディオモダリティのみに基づいた残響除去を試みた。
私たちのアイデアは、音声と視覚の観察から音声を推論することを学ぶことです。
人間の話者を囲む視覚環境は、部屋の形状、材料、話者の位置に関する重要な手がかりを示し、これらすべてが音声ストリームの正確な残響効果に影響を与えている。
本研究では,音と視覚シーンの両方に基づいて残響除去を学習するエンド・ツー・エンドのアプローチであるvida(visual-informed dereverberation of audio)を提案する。
そこで本研究では,実世界の3dスキャンによる室内音響の実環境における音声のリアルな音響表現を用いた大規模データセットを開発した。
音声強調、音声認識、話者識別のためのシミュレーションと実画像の両方に対する我々のアプローチを実証し、従来の音声のみの手法よりも大幅に改善されていることを示す。
プロジェクトページ: http://vision.cs.utexas.edu/ projects/learning-audio-visual-deeverberation
関連論文リスト
- LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。