論文の概要: A Closer Look at Weakly-Supervised Audio-Visual Source Localization
- arxiv url: http://arxiv.org/abs/2209.09634v1
- Date: Tue, 30 Aug 2022 14:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:48:56.089915
- Title: A Closer Look at Weakly-Supervised Audio-Visual Source Localization
- Title(参考訳): 弱教師付き視聴覚音源定位について
- Authors: Shentong Mo, Pedro Morgado
- Abstract要約: 映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 26.828874753756523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual source localization is a challenging task that aims to predict
the location of visual sound sources in a video. Since collecting ground-truth
annotations of sounding objects can be costly, a plethora of weakly-supervised
localization methods that can learn from datasets with no bounding-box
annotations have been proposed in recent years, by leveraging the natural
co-occurrence of audio and visual signals. Despite significant interest,
popular evaluation protocols have two major flaws. First, they allow for the
use of a fully annotated dataset to perform early stopping, thus significantly
increasing the annotation effort required for training. Second, current
evaluation metrics assume the presence of sound sources at all times. This is
of course an unrealistic assumption, and thus better metrics are necessary to
capture the model's performance on (negative) samples with no visible sound
sources. To accomplish this, we extend the test set of popular benchmarks,
Flickr SoundNet and VGG-Sound Sources, in order to include negative samples,
and measure performance using metrics that balance localization accuracy and
recall. Using the new protocol, we conducted an extensive evaluation of prior
methods, and found that most prior works are not capable of identifying
negatives and suffer from significant overfitting problems (rely heavily on
early stopping for best results). We also propose a new approach for visual
sound source localization that addresses both these problems. In particular, we
found that, through extreme visual dropout and the use of momentum encoders,
the proposed approach combats overfitting effectively, and establishes a new
state-of-the-art performance on both Flickr SoundNet and VGG-Sound Source. Code
and pre-trained models are available at https://github.com/stoneMo/SLAVC.
- Abstract(参考訳): 映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
音響対象の地中アノテーションの収集はコストがかかるため、音声と視覚信号の自然な共起を利用して、近年、バウンディングボックスアノテーションのないデータセットから学習できる弱教師付きローカライズ手法が多数提案されている。
重要な関心にもかかわらず、一般的な評価プロトコルには2つの大きな欠陥がある。
まず、完全に注釈付けされたデータセットを使用して早期停止を実行することで、トレーニングに必要なアノテーションの労力を大幅に増やすことができる。
第二に、現在の評価指標は、常に音源の存在を仮定している。
これはもちろん非現実的な仮定であり、可視的な音源のない(負の)サンプルでモデルのパフォーマンスを捉えるためには、より良いメトリクスが必要である。
これを実現するために,Flickr SoundNet と VGG-Sound Sources という人気ベンチマークの試験セットを拡張し,負のサンプルを含め,ローカライゼーションの精度とリコールのバランスをとる指標を用いて性能を測定する。
新たなプロトコルを用いて,先行手法を広範囲に評価した結果,先行手法の多くは負を識別できず,重大な過剰適合問題(最良結果の早期停止に重きを置く)に苦しむことが判明した。
また,これらの問題に対処する視覚音源定位のための新しい手法を提案する。
特に, 極端に視覚的なドロップアウトと運動量エンコーダの使用により, 提案手法が効果的に適合し, flickr soundnet と vgg-sound の両方で新たな最先端性能を確立することを見出した。
コードと事前学習されたモデルはhttps://github.com/stonemo/slavc.comで入手できる。
関連論文リスト
- A Critical Assessment of Visual Sound Source Localization Models Including Negative Audio [5.728456310555323]
本稿では,Visual Sound Source のローカライゼーションモデルの標準評価を達成すべく,新しいテストセットとメトリクスを提案する。
我々は、沈黙、騒音、オフスクリーンの3種類の否定的オーディオについて検討している。
分析の結果,多くのSOTAモデルでは,音声入力に基づいて予測を適切に調整できないことがわかった。
論文 参考訳(メタデータ) (2024-10-01T19:28:45Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。