論文の概要: Do We Need Sound for Sound Source Localization?
- arxiv url: http://arxiv.org/abs/2007.05722v1
- Date: Sat, 11 Jul 2020 08:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:43:45.053723
- Title: Do We Need Sound for Sound Source Localization?
- Title(参考訳): 音源の定位には音が必要か?
- Authors: Takashi Oya, Shohei Iwase, Ryota Natsume, Takahiro Itazuri, Shugo
Yamaguchi, Shigeo Morishima
- Abstract要約: 音源定位を解消する教師なし学習システムを開発した。
現在採用されているベンチマークデータセットで評価すると、視覚情報が「サウンド」ソースのローカライゼーションに支配的であることが分かる。
本稿では,視覚情報と聴覚情報の両方を活用可能な評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 12.512982702508669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the performance of sound source localization which uses both visual
and aural information, it presently remains unclear how much either image or
sound modalities contribute to the result, i.e. do we need both image and sound
for sound source localization? To address this question, we develop an
unsupervised learning system that solves sound source localization by
decomposing this task into two steps: (i) "potential sound source
localization", a step that localizes possible sound sources using only visual
information (ii) "object selection", a step that identifies which objects are
actually sounding using aural information. Our overall system achieves
state-of-the-art performance in sound source localization, and more
importantly, we find that despite the constraint on available information, the
results of (i) achieve similar performance. From this observation and further
experiments, we show that visual information is dominant in "sound" source
localization when evaluated with the currently adopted benchmark dataset.
Moreover, we show that the majority of sound-producing objects within the
samples in this dataset can be inherently identified using only visual
information, and thus that the dataset is inadequate to evaluate a system's
capability to leverage aural information. As an alternative, we present an
evaluation protocol that enforces both visual and aural information to be
leveraged, and verify this property through several experiments.
- Abstract(参考訳): 視覚情報と聴覚情報の両方を用いた音源定位性能では, 画像と音質のいずれが結果にどの程度寄与しているか,すなわち, 音源定位に画像と音が必要か, 現時点では不明である。
そこで本研究では,この課題を2つのステップに分解して音源定位を解消する教師なし学習システムを開発した。
(i)視覚情報のみを用いて可能な音源を局所化する「電位音源定位」
(ii)「対象選択」とは、聴覚情報を用いて実際に音を鳴らしている物体を特定するステップである。
我々のシステム全体は、音源定位における最先端の性能を達成し、さらに重要なことは、利用可能な情報に制約があるにもかかわらず、その結果がわかることである。
(i)同様の性能を達成する。
この観察およびさらなる実験から、現在採用されているベンチマークデータセットで評価すると、視覚情報は「音」ソースのローカライゼーションにおいて支配的であることが示された。
さらに,本データセット内の音声生成対象の大部分が視覚情報のみを用いて固有に識別できることを示し,聴覚情報を活用するシステムの能力を評価するにはデータセットが不十分であることを示す。
代替として,視覚情報と聴覚情報の両方を活用可能な評価プロトコルを提案し,その特性をいくつかの実験により検証する。
関連論文リスト
- Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Exploiting Transformation Invariance and Equivariance for
Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。
我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。
このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文 参考訳(メタデータ) (2022-06-26T03:00:02Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。