論文の概要: Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization
- arxiv url: http://arxiv.org/abs/2106.00180v1
- Date: Tue, 1 Jun 2021 02:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:03:51.432373
- Title: Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization
- Title(参考訳): 音像定位のためのデュアル正規化マルチタスキング
- Authors: Tokuhiro Nishikawa, Daiki Shimada, Jerry Jun Yokono
- Abstract要約: 本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although several research works have been reported on audio-visual sound
source localization in unconstrained videos, no datasets and metrics have been
proposed in the literature to quantitatively evaluate its performance. Defining
the ground truth for sound source localization is difficult, because the
location where the sound is produced is not limited to the range of the source
object, but the vibrations propagate and spread through the surrounding
objects. Therefore we propose a new concept, Sounding Object, to reduce the
ambiguity of the visual location of sound, making it possible to annotate the
location of the wide range of sound sources. With newly proposed metrics for
quantitative evaluation, we formulate the problem of Audio-Visual Sounding
Object Localization (AVSOL). We also created the evaluation dataset (AVSOL-E
dataset) by manually annotating the test set of well-known Audio-Visual Event
(AVE) dataset. To tackle this new AVSOL problem, we propose a novel multitask
training strategy and architecture called Dual Normalization Multitasking
(DNM), which aggregates the Audio-Visual Correspondence (AVC) task and the
classification task for video events into a single audio-visual similarity map.
By efficiently utilize both supervisions by DNM, our proposed architecture
significantly outperforms the baseline methods.
- Abstract(参考訳): 未訓練映像における視聴覚音源の定位に関するいくつかの研究が報告されているが、その性能を定量的に評価するためのデータセットやメトリクスは提案されていない。
音源定位のための基礎的真理を定義することは, 音源の位置は音源の範囲に限らず, 振動が周囲の物体を伝播・伝播させるため, 困難である。
そこで本研究では,音の視的位置の曖昧さを低減し,幅広い音源の位置をアノテートする新しい概念であるサウンド・オブジェクトを提案する。
定量的評価のためのメトリクスを新たに提案し,AVSOL(Audio-Visual Sounding Object Localization)の問題を定式化する。
また、よく知られたAVEデータセットのテストセットを手動でアノテートすることで、評価データセット(AVSOL-Eデータセット)を作成しました。
本稿では,この新たなavsol問題に対処するために,オーディオ・ビジュアル対応 (avc) タスクとビデオイベントの分類タスクを1つのオーディオ・ビジュアル類似度マップに集約する,デュアル・ノーマライズ・マルチタスク (dnm) と呼ばれる新しいマルチタスク・トレーニング戦略とアーキテクチャを提案する。
DNMによる両監視を効率的に活用することにより,提案アーキテクチャはベースライン法よりも大幅に優れる。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - A Closer Look at Weakly-Supervised Audio-Visual Source Localization [26.828874753756523]
映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T14:17:46Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。