論文の概要: Contrastive Positive Sample Propagation along the Audio-Visual Event
Line
- arxiv url: http://arxiv.org/abs/2211.09980v1
- Date: Fri, 18 Nov 2022 01:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:01:40.937947
- Title: Contrastive Positive Sample Propagation along the Audio-Visual Event
Line
- Title(参考訳): 音声・視覚イベント線に沿った相対正のサンプル伝搬
- Authors: Jinxing Zhou, Dan Guo, Meng Wang
- Abstract要約: 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
各ビデオセグメントの識別機能を学ぶことは重要である。
そこで本研究では,より深い特徴表現学習を実現するために,新たにCPSP法を提案する。
- 参考スコア(独自算出の注目度): 24.007548531642716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and audio signals often coexist in natural environments, forming
audio-visual events (AVEs). Given a video, we aim to localize video segments
containing an AVE and identify its category. It is pivotal to learn the
discriminative features for each video segment. Unlike existing work focusing
on audio-visual feature fusion, in this paper, we propose a new contrastive
positive sample propagation (CPSP) method for better deep feature
representation learning. The contribution of CPSP is to introduce the available
full or weak label as a prior that constructs the exact positive-negative
samples for contrastive learning. Specifically, the CPSP involves comprehensive
contrastive constraints: pair-level positive sample propagation (PSP),
segment-level and video-level positive sample activation (PSA$_S$ and PSA$_V$).
Three new contrastive objectives are proposed (\emph{i.e.},
$\mathcal{L}_{\text{avpsp}}$, $\mathcal{L}_\text{spsa}$, and
$\mathcal{L}_\text{vpsa}$) and introduced into both the fully and weakly
supervised AVE localization. To draw a complete picture of the contrastive
learning in AVE localization, we also study the self-supervised positive sample
propagation (SSPSP). As a result, CPSP is more helpful to obtain the refined
audio-visual features that are distinguishable from the negatives, thus
benefiting the classifier prediction. Extensive experiments on the AVE and the
newly collected VGGSound-AVEL100k datasets verify the effectiveness and
generalization ability of our method.
- Abstract(参考訳): 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。
AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。
各ビデオセグメントの識別機能を学ぶことは重要である。
本稿では,音声-視覚的特徴融合に焦点を当てた既存の研究と異なり,より深い特徴表現学習を実現するために,新たにCPSP法を提案する。
CPSPの貢献は、コントラスト学習のための正の正の正のサンプルを構成する先行として利用可能な完全または弱ラベルを導入することである。
具体的には、ペアレベル正のサンプル伝搬(PSP)、セグメントレベル、ビデオレベル正のサンプル活性化(PSA$_S$、PSA$_V$)という、包括的なコントラスト制約を含む。
3つの新しい対照的な目的 (\emph{i.e.}, $\mathcal{L}_{\text{avpsp}}$, $\mathcal{L}_\text{spsa}$, $\mathcal{L}_\text{vpsa}$) が提案され、完全に教師されたAVEローカライゼーションと弱い教師付きAVEローカライゼーションの両方に導入された。
AVEローカライゼーションにおけるコントラスト学習の全体像を描くため,自己教師型正サンプル伝搬(SSPSP)についても検討した。
その結果、CPSPは、否定と区別可能な洗練された音声視覚特徴を得るのに役立ち、分類器の予測に有用である。
AVEと新たに収集したVGGSound-AVEL100kデータセットの大規模な実験により,本手法の有効性と一般化能力が検証された。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - Hyperbolic Audio-visual Zero-shot Learning [47.66672509746274]
音声・視覚データの解析により多量の双曲性を明らかにし、曲率を考慮した幾何学的学習を実現するために双曲変換を使用することの潜在的な利点を示す。
提案手法では,双曲空間における映像特徴と音声特徴の相互調和を取り入れた新たな損失関数を用いる。
論文 参考訳(メタデータ) (2023-08-24T04:52:32Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。