論文の概要: Egocentric Audio-Visual Noise Suppression
- arxiv url: http://arxiv.org/abs/2211.03643v1
- Date: Mon, 7 Nov 2022 15:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:25:24.848826
- Title: Egocentric Audio-Visual Noise Suppression
- Title(参考訳): エゴセントリックな騒音抑制
- Authors: Roshan Sharma, Weipeng He, Ju Lin, Egor Lakomkin, Yang Liu and
Kaustubh Kalgaonkar
- Abstract要約: 本稿では,エゴセントリックビデオの音声・視覚的抑制について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
- 参考スコア(独自算出の注目度): 11.113020254726292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper studies audio-visual suppression for egocentric videos -- where
the speaker is not captured in the video. Instead, potential noise sources are
visible on screen with the camera emulating the off-screen speaker's view of
the outside world. This setting is different from prior work in audio-visual
speech enhancement that relies on lip and facial visuals. In this paper, we
first demonstrate that egocentric visual information is helpful for noise
suppression. We compare object recognition and action classification based
visual feature extractors, and investigate methods to align audio and visual
representations. Then, we examine different fusion strategies for the aligned
features, and locations within the noise suppression model to incorporate
visual information. Experiments demonstrate that visual features are most
helpful when used to generate additive correction masks. Finally, in order to
ensure that the visual features are discriminative with respect to different
noise types, we introduce a multi-task learning framework that jointly
optimizes audio-visual noise suppression and video based acoustic event
detection. This proposed multi-task framework outperforms the audio only
baseline on all metrics, including a 0.16 PESQ improvement. Extensive ablations
reveal the improved performance of the proposed model with multiple active
distractors, over all noise types and across different SNRs.
- Abstract(参考訳): 本稿は、ビデオの中で話者を捉えないエゴセントリックビデオの音声・視覚的抑制について研究する。
代わりに、潜在的なノイズ源はスクリーン上に見え、カメラは外界のオフスクリーンスピーカーのビューをエミュレートする。
この設定は、唇と顔面の視覚に依存する音声・視覚強調の以前の作業とは異なる。
本稿では,エゴセントリックな視覚情報が雑音抑制に有効であることを示す。
オブジェクト認識と行動分類に基づく視覚特徴抽出器を比較し,音声と視覚表現の整合性を検討する。
そこで,同調した特徴に対する異なる融合戦略と騒音抑制モデル内の位置について検討し,視覚情報を取り入れた。
実験により、視覚機能は補正マスクの生成に最も有用であることが示されている。
最後に,様々なノイズタイプに対して視覚的な特徴が判別可能であることを保証するため,音声-視覚雑音抑圧と映像ベースの音響イベント検出を共同で最適化するマルチタスク学習フレームワークを提案する。
このマルチタスクフレームワークは、0.16 pesqの改善を含む、すべてのメトリクスでオーディオのみのベースラインを上回っている。
広汎な改善により、複数のアクティブなイントラクタを持つモデルが、全てのノイズタイプと異なるSNRにわたって改善されたことを示す。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition [29.05833230733178]
音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
論文 参考訳(メタデータ) (2022-07-13T08:07:19Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。