論文の概要: Continual Audio-Visual Sound Separation
- arxiv url: http://arxiv.org/abs/2411.02860v1
- Date: Tue, 05 Nov 2024 07:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:27.326770
- Title: Continual Audio-Visual Sound Separation
- Title(参考訳): 連続的な聴覚・視覚音の分離
- Authors: Weiguo Pian, Yiyang Nan, Shijian Deng, Shentong Mo, Yunhui Guo, Yapeng Tian,
- Abstract要約: 本稿では,新しいクラスに対して連続的に音源を分離することを目的とした,連続的な音声・視覚的音源分離タスクを提案する。
本稿では,クロスモーダルなセマンティックな類似性を維持するために,クロスモーダルな類似度蒸留制限(CrossSDC)を提案する。
実験により、ContAV-Sepは破滅的な忘れを効果的に軽減し、他の継続的な学習ベースラインと比較して著しく優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 35.06195539944879
- License:
- Abstract: In this paper, we introduce a novel continual audio-visual sound separation task, aiming to continuously separate sound sources for new classes while preserving performance on previously learned classes, with the aid of visual guidance. This problem is crucial for practical visually guided auditory perception as it can significantly enhance the adaptability and robustness of audio-visual sound separation models, making them more applicable for real-world scenarios where encountering new sound sources is commonplace. The task is inherently challenging as our models must not only effectively utilize information from both modalities in current tasks but also preserve their cross-modal association in old tasks to mitigate catastrophic forgetting during audio-visual continual learning. To address these challenges, we propose a novel approach named ContAV-Sep (\textbf{Cont}inual \textbf{A}udio-\textbf{V}isual Sound \textbf{Sep}aration). ContAV-Sep presents a novel Cross-modal Similarity Distillation Constraint (CrossSDC) to uphold the cross-modal semantic similarity through incremental tasks and retain previously acquired knowledge of semantic similarity in old models, mitigating the risk of catastrophic forgetting. The CrossSDC can seamlessly integrate into the training process of different audio-visual sound separation frameworks. Experiments demonstrate that ContAV-Sep can effectively mitigate catastrophic forgetting and achieve significantly better performance compared to other continual learning baselines for audio-visual sound separation. Code is available at: \url{https://github.com/weiguoPian/ContAV-Sep_NeurIPS2024}.
- Abstract(参考訳): 本稿では,学習前の授業のパフォーマンスを保ちながら,新しい授業の音源を連続的に分離することを目的とした,新たな音声・視覚的分離タスクを提案する。
この問題は、音声・視覚的分離モデルの適応性と頑健性を大幅に向上させ、新たな音源に遭遇する現実のシナリオに応用しやすくするため、実用的な視覚的聴覚知覚にとって不可欠である。
この課題は、我々のモデルは、現在のタスクにおける両方のモダリティからの情報を効果的に活用するだけでなく、従来のタスクにおけるクロスモーダルな関連を保ち、オーディオ・視覚的連続学習における破滅的な忘れを軽減しなければならないため、本質的に困難である。
これらの課題に対処するために、ContAV-Sep (\textbf{Cont}inual \textbf{A}udio-\textbf{V}isual Sound \textbf{Sep}aration) という新しいアプローチを提案する。
ContAV-Sepはクロスモーダルな類似度蒸留法(クロスモーダルな類似度蒸留法)(CrossSDC)を新たに発表した。
CrossSDCは、異なる音声視覚分離フレームワークのトレーニングプロセスにシームレスに統合することができる。
実験により,ContAV-Sepは音響・視覚的分離のための他の連続学習ベースラインと比較して,破滅的忘れを効果的に軽減し,性能を著しく向上できることが示された。
コードは以下の通り。 \url{https://github.com/weiguoPian/ContAV-Sep_NeurIPS2024}。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Prompting Segmentation with Sound Is Generalizable Audio-Visual Source
Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。
具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。
我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文 参考訳(メタデータ) (2023-09-13T05:43:35Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。