論文の概要: Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for
Audio-Visual Source Localization
- arxiv url: http://arxiv.org/abs/2403.03145v1
- Date: Tue, 5 Mar 2024 17:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:00:35.641970
- Title: Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for
Audio-Visual Source Localization
- Title(参考訳): Dual Mean-Teacher: オーディオ・ビジュアル・ソース・ローカライゼーションのための半監督型フレームワーク
- Authors: Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao, Wei Zou, Siyang
Sun, Yun Zheng
- Abstract要約: 既存の手法は、音声-視覚対応の自己教師付きコントラスト学習に依存している。
AVSLのための新しい半教師付き学習フレームワーク、すなわちDual Mean-Teacher(DMT)を提案する。
限られたラベル付きデータに基づいて事前訓練された2人の教師が、ノイズの多いサンプルをフィルタリングするために雇われている。
DMTは信頼性マップを交差させて高品質な擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 15.640121069713611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Source Localization (AVSL) aims to locate sounding objects
within video frames given the paired audio clips. Existing methods
predominantly rely on self-supervised contrastive learning of audio-visual
correspondence. Without any bounding-box annotations, they struggle to achieve
precise localization, especially for small objects, and suffer from blurry
boundaries and false positives. Moreover, the naive semi-supervised method is
poor in fully leveraging the information of abundant unlabeled data. In this
paper, we propose a novel semi-supervised learning framework for AVSL, namely
Dual Mean-Teacher (DMT), comprising two teacher-student structures to
circumvent the confirmation bias issue. Specifically, two teachers, pre-trained
on limited labeled data, are employed to filter out noisy samples via the
consensus between their predictions, and then generate high-quality
pseudo-labels by intersecting their confidence maps. The sufficient utilization
of both labeled and unlabeled data and the proposed unbiased framework enable
DMT to outperform current state-of-the-art methods by a large margin, with CIoU
of 90.4% and 48.8% on Flickr-SoundNet and VGG-Sound Source, obtaining 8.9%,
9.6% and 4.6%, 6.4% improvements over self- and semi-supervised methods
respectively, given only 3% positional-annotations. We also extend our
framework to some existing AVSL methods and consistently boost their
performance.
- Abstract(参考訳): オーディオ・ビジュアル・ソース・ローカライゼーション (AVSL) は、ペアのオーディオ・クリップからビデオ・フレーム内の音の物体を見つけることを目的としている。
既存の手法は主に音声-視覚対応の自己教師付きコントラスト学習に依存している。
バウンディングボックスアノテーションがなければ、特に小さなオブジェクトの正確なローカライズを達成するのに苦労し、ぼやけた境界と偽陽性に苦しむ。
また,無ラベルデータの情報を十分に活用する手法は貧弱である。
本稿では, AVSL のための新しい半教師付き学習フレームワークである Dual Mean-Teacher (DMT) を提案する。
具体的には、限定ラベル付きデータに基づいて事前訓練された2人の教師が、予測間のコンセンサスを通じてノイズの多いサンプルをフィルタリングし、信頼マップを交差させて高品質な擬似ラベルを生成する。
ラベル付きおよびラベルなしデータの十分な利用と提案されていないフレームワークにより、DMTは現在の最先端の手法を大きなマージンで上回り、CIoUは90.4%、VGG-Sound Sourceは48.8%、Flickr-SoundNetとVGG-Sound Sourceは8.9%、9.6%、そして4.6%、自己および半教師付き手法は6.4%、それぞれ3%に留まった。
既存のAVSLメソッドにもフレームワークを拡張し、継続的にパフォーマンスを向上します。
関連論文リスト
- Learning with Open-world Noisy Data via Class-independent Margin in Dual Representation Space [25.472718931422307]
オープンワールドノイズを頑健に扱える新しい二空間共同学習法を提案する。
CIFAR80Nの平均精度は4.55%、AUROCは6.17%向上した。
論文 参考訳(メタデータ) (2025-01-19T14:09:04Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source
Localization [9.791311361007397]
本稿では,クロス擬似ラベル法 (XPL) という新しい手法を提案する。
XPLは既存の手法よりも優れており、最先端の性能を達成しつつ、検証バイアスを効果的に軽減している。
論文 参考訳(メタデータ) (2024-03-05T16:28:48Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Towards Semi-Supervised Deep Facial Expression Recognition with An
Adaptive Confidence Margin [92.76372026435858]
Ada-CM(Adaptive Confidence Margin)を学習し、ラベルのないすべてのデータを半教師付き深層表情認識に活用する。
すべてのラベルなしサンプルは、信頼スコアと適応的に学習された信頼マージンを比較して、2つのサブセットに分割される。
提案手法は最先端の性能,特に半教師付きベースラインを超越した性能を実現する。
論文 参考訳(メタデータ) (2022-03-23T11:43:29Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object
Detection [76.42897462051067]
3DIoUMatchは屋内および屋外の場面両方に適当3D目的の検出のための新しい半監視された方法です。
教師と教師の相互学習の枠組みを活用し,ラベル付けされていない列車の情報を擬似ラベルの形で伝達する。
本手法は,ScanNetとSUN-RGBDのベンチマークにおける最先端の手法を,全てのラベル比で有意差で継続的に改善する。
論文 参考訳(メタデータ) (2020-12-08T11:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。