論文の概要: Learning Representations from Audio-Visual Spatial Alignment
- arxiv url: http://arxiv.org/abs/2011.01819v1
- Date: Tue, 3 Nov 2020 16:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:19:17.060581
- Title: Learning Representations from Audio-Visual Spatial Alignment
- Title(参考訳): 視覚空間アライメントによる学習表現
- Authors: Pedro Morgado, Yi Li and Nuno Vasconcelos
- Abstract要約: 音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
- 参考スコア(独自算出の注目度): 76.29670751012198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel self-supervised pretext task for learning
representations from audio-visual content. Prior work on audio-visual
representation learning leverages correspondences at the video level.
Approaches based on audio-visual correspondence (AVC) predict whether audio and
video clips originate from the same or different video instances. Audio-visual
temporal synchronization (AVTS) further discriminates negative pairs originated
from the same video instance but at different moments in time. While these
approaches learn high-quality representations for downstream tasks such as
action recognition, their training objectives disregard spatial cues naturally
occurring in audio and visual signals. To learn from these spatial cues, we
tasked a network to perform contrastive audio-visual spatial alignment of
360{\deg} video and spatial audio. The ability to perform spatial alignment is
enhanced by reasoning over the full spatial content of the 360{\deg} video
using a transformer architecture to combine representations from multiple
viewpoints. The advantages of the proposed pretext task are demonstrated on a
variety of audio and visual downstream tasks, including audio-visual
correspondence, spatial alignment, action recognition, and video semantic
segmentation.
- Abstract(参考訳): 音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
視聴覚表現学習の先行研究は、映像レベルでの対応を活用している。
音声-視覚対応(AVC)に基づくアプローチは、音声とビデオクリップが同一または異なるビデオインスタンスに由来するかどうかを予測する。
音声-視覚的時間同期(AVTS)は、同じビデオインスタンスに由来する負のペアを、異なるタイミングで識別する。
これらの手法は、アクション認識などの下流タスクの高品質な表現を学習する一方で、その訓練目的は、音声や視覚信号で自然に発生する空間的手がかりを無視している。
これらの空間的手がかりから学習するために,360{\deg}ビデオと空間的オーディオのコントラスト的な空間的アライメントを行うネットワークを課題とした。
変換器アーキテクチャを用いて360{\deg}ビデオの全空間コンテンツを推論し、複数の視点からの表現を組み合わせることで空間アライメントを行う能力を向上させる。
提案課題の利点は,音声-視覚対応,空間的アライメント,行動認識,映像意味セグメンテーションなど,様々な音声および視覚的下流タスクで実証される。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition [26.828874753756523]
本研究では,統合型音声視覚学習フレームワーク(OneAVM)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの実験では、3つのタスクすべてに対してOneAVMの有効性が示されている。
論文 参考訳(メタデータ) (2023-05-30T23:53:12Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。