論文の概要: Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound
- arxiv url: http://arxiv.org/abs/2006.06175v2
- Date: Fri, 12 Jun 2020 03:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:33:25.929878
- Title: Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound
- Title(参考訳): 右から左に伝える:目と音の空間対応学習
- Authors: Karren Yang, Bryan Russell, Justin Salamon
- Abstract要約: 本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
- 参考スコア(独自算出の注目度): 16.99266133458188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised audio-visual learning aims to capture useful representations
of video by leveraging correspondences between visual and audio inputs.
Existing approaches have focused primarily on matching semantic information
between the sensory streams. We propose a novel self-supervised task to
leverage an orthogonal principle: matching spatial information in the audio
stream to the positions of sound sources in the visual stream. Our approach is
simple yet effective. We train a model to determine whether the left and right
audio channels have been flipped, forcing it to reason about spatial
localization across the visual and audio streams. To train and evaluate our
method, we introduce a large-scale video dataset, YouTube-ASMR-300K, with
spatial audio comprising over 900 hours of footage. We demonstrate that
understanding spatial correspondence enables models to perform better on three
audio-visual tasks, achieving quantitative gains over supervised and
self-supervised baselines that do not leverage spatial audio cues. We also show
how to extend our self-supervised approach to 360 degree videos with ambisonic
audio.
- Abstract(参考訳): 自己教師付き音声視覚学習は、視覚入力と音声入力の対応を利用して、ビデオの有用な表現を捉えることを目的としている。
既存のアプローチは主に感覚ストリーム間の意味情報のマッチングに重点を置いている。
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという直交原理を活用するための,新たな自己教師型タスクを提案する。
我々のアプローチは単純だが効果的だ。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
本手法を訓練し,評価するために,900時間以上の映像を含む大規模ビデオデータセット,YouTube-ASMR-300Kを導入する。
空間対応を理解すれば,3つの視聴覚タスクにおいて,空間的音声の手がかりを活用しない教師付きベースラインや自己教師付きベースラインよりも定量的に獲得できることを示す。
ambisonic audioで360度ビデオに自己教師ありのアプローチを拡張する方法も示しています。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。