論文の概要: Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations
- arxiv url: http://arxiv.org/abs/2104.08506v1
- Date: Sat, 17 Apr 2021 10:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:57:50.147260
- Title: Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations
- Title(参考訳): 自己監督運動表現を用いた視覚的音源分離と位置決め
- Authors: Lingyu Zhu and Esa Rahtu
- Abstract要約: 入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
- 参考スコア(独自算出の注目度): 16.447597767676655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to perform audio-visual sound source
separation, i.e.~to separate component audios from a mixture based on the
videos of sound sources. Moreover, we aim to pinpoint the source location in
the input video sequence. Recent works have shown impressive audio-visual
separation results when using prior knowledge of the source type (e.g. human
playing instrument) and pre-trained motion detectors (e.g. keypoints or optical
flows). However, at the same time, the models are limited to a certain
application domain. In this paper, we address these limitations and make the
following contributions: i) we propose a two-stage architecture, called
Appearance and Motion network (AMnet), where the stages specialise to
appearance and motion cues, respectively. The entire system is trained in a
self-supervised manner; ii) we introduce an Audio-Motion Embedding (AME)
framework to explicitly represent the motions that related to sound; iii) we
propose an audio-motion transformer architecture for audio and motion feature
fusion; iv) we demonstrate state-of-the-art performance on two challenging
datasets (MUSIC-21 and AVE) despite the fact that we do not use any pre-trained
keypoint detectors or optical flow estimators. Project page:
https://ly-zhu.github.io/self-supervised-motion-representations
- Abstract(参考訳): 本研究の目的は,音源の映像に基づく混合音から成分音を分離し,音声・視覚的音源分離を行うことである。
さらに、入力されたビデオシーケンスのソース位置をピンポイントすることを目的とする。
近年の研究では、ソースタイプの事前知識(例えば、音声と視覚の分離結果)が顕著に示されている。
人間の楽器)と事前訓練されたモーション検出器(例)
キーポイントまたは光学フロー)
しかし、同時に、モデルは特定のアプリケーションドメインに限定されます。
本稿では,これらの制約に対処し,次のような貢献をする:i) 外観と動きを専門とする2段階アーキテクチャである外観と動きのネットワーク (AMnet) を提案する。
システム全体を自己教師型でトレーニングし, 音に関連する動作を明示的に表現するためのAME(Audio-Motion Embedding)フレームワークを導入し, iii) 音声・動作特徴融合のためのオーディオ・モーション・トランスフォーマーアーキテクチャを提案し, iv) 事前訓練されたキーポイント検出器や光フロー推定器を使用しないにもかかわらず, 2つの挑戦的データセット(MUSIC-21, AVE)に対して最先端の性能を示す。
プロジェクトページ: https://ly-zhu.github.io/self-supervised-motion-representations
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。