論文の概要: What's Making That Sound Right Now? Video-centric Audio-Visual Localization
- arxiv url: http://arxiv.org/abs/2507.04667v1
- Date: Mon, 07 Jul 2025 05:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.281763
- Title: What's Making That Sound Right Now? Video-centric Audio-Visual Localization
- Title(参考訳): 今何の音だ? ビデオ中心のオーディオ画像のローカライゼーション
- Authors: Hahyeon Choi, Junhoo Lee, Nojun Kwak,
- Abstract要約: AVLは、視覚的シーン内の音源を識別することを目的としている。
AVATARは高解像度の時間情報を含むビデオ中心のAVLベンチマークである。
TAVLOはビデオ中心のAVLモデルであり、時間情報を明示的に統合する。
- 参考スコア(独自算出の注目度): 26.240518216121487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Localization (AVL) aims to identify sound-emitting sources within a visual scene. However, existing studies focus on image-level audio-visual associations, failing to capture temporal dynamics. Moreover, they assume simplified scenarios where sound sources are always visible and involve only a single object. To address these limitations, we propose AVATAR, a video-centric AVL benchmark that incorporates high-resolution temporal information. AVATAR introduces four distinct scenarios -- Single-sound, Mixed-sound, Multi-entity, and Off-screen -- enabling a more comprehensive evaluation of AVL models. Additionally, we present TAVLO, a novel video-centric AVL model that explicitly integrates temporal information. Experimental results show that conventional methods struggle to track temporal variations due to their reliance on global audio features and frame-level mappings. In contrast, TAVLO achieves robust and precise audio-visual alignment by leveraging high-resolution temporal modeling. Our work empirically demonstrates the importance of temporal dynamics in AVL and establishes a new standard for video-centric audio-visual localization.
- Abstract(参考訳): オーディオ・ビジュアル・ローカライゼーション (AVL) は、視覚シーン内の音源を識別することを目的としている。
しかし、既存の研究では、時間的ダイナミクスを捉えない画像レベルの音声視覚関連に焦点が当てられている。
さらに、音源が常に見え、単一の物体のみを含む、単純化されたシナリオを仮定する。
これらの制約に対処するため,高分解能時間情報を組み込んだビデオ中心型AVLベンチマークであるAVATARを提案する。
AVATARは、シングルサウンド、ミックスサウンド、マルチエンタリティ、オフスクリーンの4つの異なるシナリオを導入し、AVLモデルのより包括的な評価を可能にした。
さらに,時間情報を明確に統合したビデオ中心型AVLモデルであるTAVLOを提案する。
実験結果から,従来手法はグローバルな音声特徴やフレームレベルのマッピングに依存するため,時間変動の追跡に苦慮していることが明らかとなった。
対照的に、TAVLOは高分解能時間モデルを利用して、頑健で正確なオーディオ・視覚アライメントを実現する。
我々の研究は、AVLにおける時間的ダイナミクスの重要性を実証的に証明し、ビデオ中心の音声視覚ローカライゼーションの新しい標準を確立する。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。