論文の概要: Induction Network: Audio-Visual Modality Gap-Bridging for
Self-Supervised Sound Source Localization
- arxiv url: http://arxiv.org/abs/2308.04767v1
- Date: Wed, 9 Aug 2023 07:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:42:16.632548
- Title: Induction Network: Audio-Visual Modality Gap-Bridging for
Self-Supervised Sound Source Localization
- Title(参考訳): 誘導ネットワーク:自己監督音源定位のためのオーディオ・ビジュアルモダリティギャップブリッジ
- Authors: Tianyu Liu, Peng Zhang, Wei Huang, Yufei Zha, Tao You, Yanning Zhang
- Abstract要約: 本研究では,モダリティギャップをより効果的に橋渡しするインダクションネットワークを提案する。
視覚的・音声的モダリティの勾配を分離することにより、音源の識別的視覚的表現を学習することができる。
SoundNet-FlickrおよびVGG-Sound Sourceデータセットで実施された実験は、優れた性能を示した。
- 参考スコア(独自算出の注目度): 44.911681670756124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised sound source localization is usually challenged by the
modality inconsistency. In recent studies, contrastive learning based
strategies have shown promising to establish such a consistent correspondence
between audio and sound sources in visual scenarios. Unfortunately, the
insufficient attention to the heterogeneity influence in the different modality
features still limits this scheme to be further improved, which also becomes
the motivation of our work. In this study, an Induction Network is proposed to
bridge the modality gap more effectively. By decoupling the gradients of visual
and audio modalities, the discriminative visual representations of sound
sources can be learned with the designed Induction Vector in a bootstrap
manner, which also enables the audio modality to be aligned with the visual
modality consistently. In addition to a visual weighted contrastive loss, an
adaptive threshold selection strategy is introduced to enhance the robustness
of the Induction Network. Substantial experiments conducted on SoundNet-Flickr
and VGG-Sound Source datasets have demonstrated a superior performance compared
to other state-of-the-art works in different challenging scenarios. The code is
available at https://github.com/Tahy1/AVIN
- Abstract(参考訳): 自己教師付き音源定位は通常モダリティの不整合によって挑戦される。
近年の研究では、視覚的シナリオにおける音声と音源の整合性を確立するために、コントラッシブラーニングに基づく戦略が提案されている。
残念なことに、異なるモジュラリティ特徴における不均一性の影響に対する十分な注意は、このスキームをさらに改善することを制限しています。
本研究では,モーダリティギャップをより効果的に橋渡しするための誘導ネットワークを提案する。
視覚モダリティの勾配と音声モダリティを分離することにより、設計した誘導ベクトルで音源の識別的な視覚的表現をブートストラップ形式で学習することができ、オーディオモダリティを視覚モダリティと一貫して一致させることができる。
視覚重み付きコントラスト損失に加えて、誘導ネットワークのロバスト性を高めるために適応しきい値選択戦略を導入する。
SoundNet-Flickr と VGG-Sound Source のデータセットで実施された実体実験は、異なる挑戦シナリオにおける他の最先端の作業よりも優れたパフォーマンスを示している。
コードはhttps://github.com/Tahy1/AVINで入手できる。
関連論文リスト
- A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Exploiting Transformation Invariance and Equivariance for
Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。
我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。
このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文 参考訳(メタデータ) (2022-06-26T03:00:02Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。