論文の概要: Positive Sample Propagation along the Audio-Visual Event Line
- arxiv url: http://arxiv.org/abs/2104.00239v2
- Date: Mon, 5 Apr 2021 07:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 12:08:06.807592
- Title: Positive Sample Propagation along the Audio-Visual Event Line
- Title(参考訳): 音声-視覚イベントラインに沿った正のサンプル伝搬
- Authors: Jinxing Zhou, Liang Zheng, Yiran Zhong, Shijie Hao, Meng Wang
- Abstract要約: 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
- 参考スコア(独自算出の注目度): 29.25572713908162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and audio signals often coexist in natural environments, forming
audio-visual events (AVEs). Given a video, we aim to localize video segments
containing an AVE and identify its category. In order to learn discriminative
features for a classifier, it is pivotal to identify the helpful (or positive)
audio-visual segment pairs while filtering out the irrelevant ones, regardless
whether they are synchronized or not. To this end, we propose a new positive
sample propagation (PSP) module to discover and exploit the closely related
audio-visual pairs by evaluating the relationship within every possible pair.
It can be done by constructing an all-pair similarity map between each audio
and visual segment, and only aggregating the features from the pairs with high
similarity scores. To encourage the network to extract high correlated features
for positive samples, a new audio-visual pair similarity loss is proposed. We
also propose a new weighting branch to better exploit the temporal correlations
in weakly supervised setting. We perform extensive experiments on the public
AVE dataset and achieve new state-of-the-art accuracy in both fully and weakly
supervised settings, thus verifying the effectiveness of our method.
- Abstract(参考訳): 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。
AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。
分類器の識別的特徴を学習するためには, 同期の有無に関わらず, 有益(あるいは肯定的)な音声と視覚のセグメントペアを識別し, 無関係なセグメントをフィルタリングすることが重要である。
そこで本研究では,各ペア内の関係性を評価することによって,近縁な音声と視覚のペアを発見・活用する,新たな正のサンプル伝搬(PSP)モジュールを提案する。
これは、各オーディオと視覚セグメント間の全ペア類似度マップを構築し、高い類似度スコアを持つペアからのみ機能を集約することで実現できます。
正のサンプルに対して高い相関性を持つ特徴を抽出するようネットワークに促すため,新しい音声-視覚対類似性損失を提案する。
また,弱教師付き設定における時間相関をよりよく活用する新しい重み付け枝を提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現し,提案手法の有効性を検証した。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Contrastive Positive Sample Propagation along the Audio-Visual Event
Line [24.007548531642716]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
各ビデオセグメントの識別機能を学ぶことは重要である。
そこで本研究では,より深い特徴表現学習を実現するために,新たにCPSP法を提案する。
論文 参考訳(メタデータ) (2022-11-18T01:55:45Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。