論文の概要: The Sound of Bounding-Boxes
- arxiv url: http://arxiv.org/abs/2203.15991v1
- Date: Wed, 30 Mar 2022 01:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 02:07:22.260319
- Title: The Sound of Bounding-Boxes
- Title(参考訳): 境界箱の音
- Authors: Takashi Oya, Shohei Iwase, Shigeo Morishima
- Abstract要約: 本研究では,画像中の物体を同時に検出し,音源を分離する手法を提案する。
本手法は完全に教師なしだが,分離精度は両立可能である。
- 参考スコア(独自算出の注目度): 12.019518891110007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the task of audio-visual sound source separation, which leverages visual
information for sound source separation, identifying objects in an image is a
crucial step prior to separating the sound source. However, existing methods
that assign sound on detected bounding boxes suffer from a problem that their
approach heavily relies on pre-trained object detectors. Specifically, when
using these existing methods, it is required to predetermine all the possible
categories of objects that can produce sound and use an object detector
applicable to all such categories. To tackle this problem, we propose a fully
unsupervised method that learns to detect objects in an image and separate
sound source simultaneously. As our method does not rely on any pre-trained
detector, our method is applicable to arbitrary categories without any
additional annotation. Furthermore, although being fully unsupervised, we found
that our method performs comparably in separation accuracy.
- Abstract(参考訳): 音源分離に視覚情報を活用する音声視覚音源分離作業において,画像中の物体の識別は音源分離に先立って重要なステップである。
しかし、検出された境界箱に音を割り当てる既存の方法は、そのアプローチが事前訓練された物体検出器に大きく依存する問題に悩まされている。
具体的には、これらの既存手法を使用する場合、音を発生させる可能性のあるオブジェクトのすべてのカテゴリを事前に決定し、これらすべてのカテゴリに適用可能なオブジェクト検出器を使用する必要がある。
そこで本研究では,画像内の物体と音源の分離を同時に検出する完全教師なし手法を提案する。
本手法は事前学習された検出器に依存しないため,追加のアノテーションを伴わずに任意のカテゴリに適用できる。
さらに, 完全に教師なしでありながら, 分離精度が両立することを確認した。
関連論文リスト
- Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Universal Noise Annotation: Unveiling the Impact of Noisy annotation on
Object Detection [36.318411642128446]
ユニバーサルノイズについて提案する。
(UNA)は、物体検出時に発生するあらゆる種類のノイズを包含するより実用的な設定である。
本研究では,従来の検出アルゴリズムの開発方向を解析し,検出モデル学習手法の堅牢性に影響を与える要因について検討した。
データセットにUNAを注入するためのコードをオープンソースで公開し、トレーニングログとウェイトもすべて共有しています。
論文 参考訳(メタデータ) (2023-12-21T13:12:37Z) - Integrating Audio-Visual Features for Multimodal Deepfake Detection [33.51027054306748]
Deepfakesは、画像やビデオがデジタル修正されたAI生成メディアである。
本稿では,細粒度深度識別とバイナリ分類を組み合わせたディープフェイク検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-05T18:19:56Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Self-supervised object detection from audio-visual correspondence [101.46794879729453]
我々は、監視なしで物体検出器を学習する問題に取り組む。
画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。
本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
論文 参考訳(メタデータ) (2021-04-13T17:59:03Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。