論文の概要: Unsupervised Sound Localization via Iterative Contrastive Learning
- arxiv url: http://arxiv.org/abs/2104.00315v1
- Date: Thu, 1 Apr 2021 07:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:20:13.475852
- Title: Unsupervised Sound Localization via Iterative Contrastive Learning
- Title(参考訳): 反復的コントラスト学習による教師なし音像定位
- Authors: Yan-Bo Lin, Hung-Yu Tseng, Hsin-Ying Lee, Yen-Yu Lin, Ming-Hsuan Yang
- Abstract要約: データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
- 参考スコア(独自算出の注目度): 106.56167882750792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound localization aims to find the source of the audio signal in the visual
scene. However, it is labor-intensive to annotate the correlations between the
signals sampled from the audio and visual modalities, thus making it difficult
to supervise the learning of a machine for this task. In this work, we propose
an iterative contrastive learning framework that requires no data annotations.
At each iteration, the proposed method takes the 1) localization results in
images predicted in the previous iteration, and 2) semantic relationships
inferred from the audio signals as the pseudo-labels. We then use the
pseudo-labels to learn the correlation between the visual and audio signals
sampled from the same video (intra-frame sampling) as well as the association
between those extracted across videos (inter-frame relation). Our iterative
strategy gradually encourages the localization of the sounding objects and
reduces the correlation between the non-sounding regions and the reference
audio. Quantitative and qualitative experimental results demonstrate that the
proposed framework performs favorably against existing unsupervised and
weakly-supervised methods on the sound localization task.
- Abstract(参考訳): 音像定位は、視覚シーンにおける音声信号の源を見つけることを目的としている。
しかし、音声からサンプリングされた信号と視覚モダリティとの相関関係を注釈付けるのに手間がかかるため、このタスクのために機械の学習を監督することは困難である。
本研究では,データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
各イテレーションにおいて,提案手法は,1)前回のイテレーションで予測された画像のローカライズ結果と,2)擬似ラベルとして音声信号から推定される意味的関係を抽出する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係(フレーム内サンプリング)と、ビデオ間で抽出された信号の相関関係(フレーム間関係)を学習する。
我々の反復的戦略は徐々に音像の局所化を促し、非響き領域と参照音声との相関を減少させる。
定量的および定性的な実験結果から,提案手法は音像定位作業において既存の教師なし・弱教師付き手法に対して良好に機能することが示された。
関連論文リスト
- Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。