論文の概要: Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2603.08967v1
- Date: Mon, 09 Mar 2026 21:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.848123
- Title: Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation
- Title(参考訳): 聴覚, 局所化, セグメンテーションは継続できるか? 聴覚・視覚のセグメンテーションのための経験のない連続学習ベンチマーク
- Authors: Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu,
- Abstract要約: 現実の環境は本質的に動的であり、オーディオや視覚的な分布は時間とともに進化する。
単一ソースとマルチソースのAVSデータセットにまたがる4つの学習プロトコルを含む,Audio-Visualの最初の連続学習ベンチマークを紹介する。
低ランクアンコリング (LRA) を導入し, 損失感度に基づいて適応重量を安定化させることにより, 破滅的忘れを緩和する。
- 参考スコア(独自算出の注目度): 9.480328219158254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to produce pixel-level masks of sound producing objects in videos, by jointly learning from audio and visual signals. However, real-world environments are inherently dynamic, causing audio and visual distributions to evolve over time, which challenge existing AVS systems that assume static training settings. To address this gap, we introduce the first exemplar-free continual learning benchmark for Audio-Visual Segmentation, comprising four learning protocols across single-source and multi-source AVS datasets. We further propose a strong baseline, ATLAS, which uses audio-guided pre-fusion conditioning to modulate visual feature channels via projected audio context before cross-modal attention. Finally, we mitigate catastrophic forgetting by introducing Low-Rank Anchoring (LRA), which stabilizes adapted weights based on loss sensitivity. Extensive experiments demonstrate competitive performance across diverse continual scenarios, establishing a foundation for lifelong audio-visual perception. Code is available at${}^{*}$\footnote{Paper under review} - \hyperlink{https://gitlab.com/viper-purdue/atlas}{https://gitlab.com/viper-purdue/atlas} \keywords{Continual Learning \and Audio-Visual Segmentation \and Multi-Modal Learning}
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション (AVS) は、音声と視覚信号から共同で学習することで、ビデオ中の音声生成物体のピクセルレベルのマスクを作成することを目的としている。
しかし、現実の環境は本質的に動的であり、オーディオや視覚的な分布は時間とともに進化し、静的なトレーニング設定を前提とする既存のAVSシステムに挑戦する。
このギャップに対処するために、単一ソースとマルチソースのAVSデータセットにまたがる4つの学習プロトコルを含む、オーディオ・ビジュアル・セグメンテーションのための、最初の例のない連続学習ベンチマークを導入する。
さらに,音声誘導型プレフュージョンコンディショニングを用いて,投影された音声コンテキストを介して視覚特徴チャネルを変調する強力なベースラインであるATLASを提案する。
最後に,損失感度に基づいて適応重量を安定化する低ランクアンコリング(LRA)を導入することにより,破滅的忘れを緩和する。
広範囲にわたる実験は、様々な連続的なシナリオにまたがる競争性能を示し、生涯にわたるオーディオ視覚知覚の基礎を確立している。
コードは${}^{*}$\footnote{Paper under review} - \hyperlink{https://gitlab.com/viper-purdue/atlas}{https://gitlab.com/viper-purdue/atlas} \keywords{Continual Learning \and Audio-Visual Segmentation \and Multi-Modal Learning} で利用可能である。
関連論文リスト
- Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation [37.91678426119673]
既存の手法は2つの根本的な問題から生じる視覚バイアスに悩まされている。一様加法融合は、クエリが異なる音源に特化することを防ぎ、視覚のみの訓練目的は、クエリが任意の有意なオブジェクトに収束することを許している。
クロスアテンションを用いた音声中心クエリ生成を提案し、各クエリは異なる音源に選択的に参加し、音声固有の先行情報を視覚的復号化することができる。
論文 参考訳(メタデータ) (2025-09-26T02:31:17Z) - Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。