論文の概要: AdVerb: Visually Guided Audio Dereverberation
- arxiv url: http://arxiv.org/abs/2308.12370v1
- Date: Wed, 23 Aug 2023 18:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:38:43.388308
- Title: AdVerb: Visually Guided Audio Dereverberation
- Title(参考訳): adverb: 視覚誘導オーディオの残響
- Authors: Sanjoy Chowdhury, Sreyan Ghosh, Subhrajyoti Dasgupta, Anton
Ratnarajah, Utkarsh Tyagi and Dinesh Manocha
- Abstract要約: 本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
- 参考スコア(独自算出の注目度): 49.958724234969445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AdVerb, a novel audio-visual dereverberation framework that uses
visual cues in addition to the reverberant sound to estimate clean audio.
Although audio-only dereverberation is a well-studied problem, our approach
incorporates the complementary visual modality to perform audio
dereverberation. Given an image of the environment where the reverberated sound
signal has been recorded, AdVerb employs a novel geometry-aware cross-modal
transformer architecture that captures scene geometry and audio-visual
cross-modal relationship to generate a complex ideal ratio mask, which, when
applied to the reverberant audio predicts the clean sound. The effectiveness of
our method is demonstrated through extensive quantitative and qualitative
evaluations. Our approach significantly outperforms traditional audio-only and
audio-visual baselines on three downstream tasks: speech enhancement, speech
recognition, and speaker verification, with relative improvements in the range
of 18% - 82% on the LibriSpeech test-clean set. We also achieve highly
satisfactory RT60 error scores on the AVSpeech dataset.
- Abstract(参考訳): 本稿では,残響音に加えて視覚的手がかりを用いてクリーンな音声を推定する新しい音声-視覚的除去フレームワークAdVerbを提案する。
音声のみのデバーベレーションはよく研究されている問題であるが,本手法では補完的な視覚的モダリティを取り入れて音声デバーベレーションを行う。
残響音信号が記録された環境の画像が与えられると、adverbは、シーンの幾何と音声と視覚のクロスモーダルの関係を捉えて、複雑な理想比マスクを生成し、残響音に適用すると、クリーンな音を予測する新しい幾何認識クロスモーダルトランスフォーマーアーキテクチャを用いる。
本手法の有効性は, 定量的および定性的な評価によって実証される。
提案手法は,音声強調,音声認識,話者照合という3つの下流課題において,従来の音声のみおよび視聴覚ベースラインを著しく上回り,librispeechテストクリーンセットの18%から82%の範囲で相対的に改善した。
また、AVSpeechデータセット上でRT60エラースコアを高い精度で達成する。
関連論文リスト
- AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。