論文の概要: Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?
- arxiv url: http://arxiv.org/abs/2502.00358v1
- Date: Sat, 01 Feb 2025 07:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:57.212724
- Title: Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?
- Title(参考訳): 音響・視覚的分割モデルは、真にセグメンテーション音の物体か?
- Authors: Jia Li, Wenjie Zhao, Ziru Huang, Yunhui Guo, Yapeng Tian,
- Abstract要約: AVSBench-Robustは、サイレント、環境騒音、オフスクリーン音を含む様々なネガティブなオーディオシナリオを取り入れたベンチマークである。
提案手法は, ほぼ完全な偽陽性率を維持しながら, 標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 38.98706069359109
- License:
- Abstract: Unlike traditional visual segmentation, audio-visual segmentation (AVS) requires the model not only to identify and segment objects but also to determine whether they are sound sources. Recent AVS approaches, leveraging transformer architectures and powerful foundation models like SAM, have achieved impressive performance on standard benchmarks. Yet, an important question remains: Do these models genuinely integrate audio-visual cues to segment sounding objects? In this paper, we systematically investigate this issue in the context of robust AVS. Our study reveals a fundamental bias in current methods: they tend to generate segmentation masks based predominantly on visual salience, irrespective of the audio context. This bias results in unreliable predictions when sounds are absent or irrelevant. To address this challenge, we introduce AVSBench-Robust, a comprehensive benchmark incorporating diverse negative audio scenarios including silence, ambient noise, and off-screen sounds. We also propose a simple yet effective approach combining balanced training with negative samples and classifier-guided similarity learning. Our extensive experiments show that state-of-theart AVS methods consistently fail under negative audio conditions, demonstrating the prevalence of visual bias. In contrast, our approach achieves remarkable improvements in both standard metrics and robustness measures, maintaining near-perfect false positive rates while preserving highquality segmentation performance.
- Abstract(参考訳): 従来の視覚的セグメンテーションとは異なり、オーディオ視覚的セグメンテーション(AVS)は、オブジェクトを識別し、セグメント化するだけでなく、それらが音源であるかどうかを決定するためにモデルを必要とする。
最近のAVSアプローチでは、トランスフォーマーアーキテクチャとSAMのような強力な基盤モデルを活用し、標準ベンチマークで印象的なパフォーマンスを実現している。
しかし、重要な疑問が残る:これらのモデルは、本当に音声と視覚の手がかりを統合して、聴覚オブジェクトをセグメント化するのだろうか?
本稿では,ロバスト AVS の文脈において,この問題を体系的に検討する。
本研究は,音声の文脈によらず,視覚的サリエンスを主眼としたセグメンテーションマスクを生成する傾向にあることを示す。
このバイアスは、音が欠如している、あるいは無関係であるときに、信頼できない予測をもたらす。
AVSBench-Robustは、サイレント、環境騒音、オフスクリーンサウンドなど、さまざまなネガティブなオーディオシナリオを組み込んだ総合的なベンチマークである。
また、負のサンプルを用いたバランス学習と、分類器誘導類似性学習を組み合わせた簡易かつ効果的な手法を提案する。
我々の広範な実験により、最先端のAVS手法は負の音響条件下で一貫して失敗し、視覚バイアスの頻度が示されることがわかった。
対照的に,本手法は,高品質セグメンテーション性能を維持しつつ,ほぼ完全な偽陽性率を維持しながら,標準測定値とロバストネス測定値の両方において顕著な改善を実現している。
関連論文リスト
- Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Contrastive Conditional Latent Diffusion for Audio-visual Segmentation [37.83055692562661]
意味関連表現学習を実現するために,潜在拡散モデルを提案する。
我々は条件変数がモデル出力に寄与することを確実にすることが不可欠であると主張する。
論文 参考訳(メタデータ) (2023-07-31T11:29:50Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。