論文の概要: Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation
- arxiv url: http://arxiv.org/abs/2509.22740v1
- Date: Fri, 26 Sep 2025 02:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.841493
- Title: Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation
- Title(参考訳): 聞くべきことを学ぶ:ロバストな視覚的インスタンスセグメンテーションのためのサウンドソースアソシエーション
- Authors: Jinbae Seo, Hyeongjun Kwon, Kwonyoung Kim, Jiyoung Lee, Kwanghoon Sohn,
- Abstract要約: 既存の手法は2つの根本的な問題から生じる視覚バイアスに悩まされている。一様加法融合は、クエリが異なる音源に特化することを防ぎ、視覚のみの訓練目的は、クエリが任意の有意なオブジェクトに収束することを許している。
クロスアテンションを用いた音声中心クエリ生成を提案し、各クエリは異なる音源に選択的に参加し、音声固有の先行情報を視覚的復号化することができる。
- 参考スコア(独自算出の注目度): 37.91678426119673
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audiovisual instance segmentation (AVIS) requires accurately localizing and tracking sounding objects throughout video sequences. Existing methods suffer from visual bias stemming from two fundamental issues: uniform additive fusion prevents queries from specializing to different sound sources, while visual-only training objectives allow queries to converge to arbitrary salient objects. We propose Audio-Centric Query Generation using cross-attention, enabling each query to selectively attend to distinct sound sources and carry sound-specific priors into visual decoding. Additionally, we introduce Sound-Aware Ordinal Counting (SAOC) loss that explicitly supervises sounding object numbers through ordinal regression with monotonic consistency constraints, preventing visual-only convergence during training. Experiments on AVISeg benchmark demonstrate consistent improvements: +1.64 mAP, +0.6 HOTA, and +2.06 FSLA, validating that query specialization and explicit counting supervision are crucial for accurate audiovisual instance segmentation.
- Abstract(参考訳): オーディオ視覚的インスタンスセグメンテーション(AVIS)は、ビデオシーケンス全体を通して、正確な位置決めと追跡を必要とする。
既存の手法は2つの根本的な問題から生じる視覚バイアスに悩まされている: 均一な加法融合は、クエリが異なる音源に特化することを防ぎ、一方、視覚のみの訓練目的は、クエリが任意の有意なオブジェクトに収束することを許している。
クロスアテンションを用いた音声中心クエリ生成を提案し、各クエリは異なる音源に選択的に参加し、音声固有の先行情報を視覚的復号化することができる。
さらに、単調な一貫性の制約による順序回帰を通じて、対象の音を明示的に監視し、トレーニング中の視覚のみの収束を防止する音認識順序数(SAOC)損失を導入する。
AVISegベンチマークの実験では、+1.64 mAP、+0.6 HOTA、+2.06 FSLAという一貫した改善がなされている。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。