論文の概要: Taming Modality Entanglement in Continual Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2510.17234v1
- Date: Mon, 20 Oct 2025 07:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.347768
- Title: Taming Modality Entanglement in Continual Audio-Visual Segmentation
- Title(参考訳): 連続的なオーディオ・ビジュアル・セグメンテーションにおけるモダリティの絡み合わせ
- Authors: Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang,
- Abstract要約: 本稿では,音声によって案内される新しいクラスを連続的にセグメント化することを目的とした,新しいCAVSタスクを提案する。
1)マルチモーダルなセマンティックドリフトと2)共起混同の2つの重要な課題が同定された。
Collisionベースのマルチモーダルリハーサルフレームワークは、これらの課題に対処するために設計されている。
- 参考スコア(独自算出の注目度): 30.143320890304366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant progress has been made in multi-modal continual learning, aiming to learn new tasks sequentially in multi-modal settings while preserving performance on previously learned ones. However, existing methods mainly focus on coarse-grained tasks, with limitations in addressing modality entanglement in fine-grained continual learning settings. To bridge this gap, we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to continuously segment new classes guided by audio. Through comprehensive analysis, two critical challenges are identified: 1) multi-modal semantic drift, where a sounding objects is labeled as background in sequential tasks; 2) co-occurrence confusion, where frequent co-occurring classes tend to be confused. In this work, a Collision-based Multi-modal Rehearsal (CMR) framework is designed to address these challenges. Specifically, for multi-modal semantic drift, a Multi-modal Sample Selection (MSS) strategy is proposed to select samples with high modal consistency for rehearsal. Meanwhile, for co-occurence confusion, a Collision-based Sample Rehearsal (CSR) mechanism is designed, allowing for the increase of rehearsal sample frequency of those confusable classes during training process. Moreover, we construct three audio-visual incremental scenarios to verify effectiveness of our method. Comprehensive experiments demonstrate that our method significantly outperforms single-modal continual learning methods.
- Abstract(参考訳): 近年,マルチモーダル連続学習において,従来学習したタスクの性能を維持しつつ,複数モーダル設定でタスクを逐次学習することを目的として,大きな進歩を遂げている。
しかし、既存の手法は主に粗粒度タスクに重点を置いており、微粒度連続学習環境におけるモダリティの絡み合いに対処する際の制限がある。
このギャップを埋めるために,我々は,音声によって案内される新しいクラスを連続的にセグメント化することを目的とした,新しいCAVSタスクを導入する。
包括的な分析を通じて、2つの重要な課題が特定される。
1)マルチモーダルなセマンティックドリフトでは,連続したタスクにおいて,音を鳴らす物体を背景としてラベル付けする。
2) 共起クラスは混同されがちな共起クラスが混同される傾向にあった。
この作業では、これらの課題に対処するために、CMR(Collision-based Multi-modal Rehearsal)フレームワークが設計されている。
具体的には,マルチモーダルなセマンティックドリフトに対して,マルチモーダルなサンプル選択(MSS)戦略を提案する。
一方、共起混同のために、CSR(Collision-based Sample Rehearsal)機構が設計され、トレーニングプロセス中にこれらの不定形クラスのリハーサルサンプル頻度が増大する。
さらに,本手法の有効性を検証するために,3つのオーディオ・ビジュアル・インクリメンタル・シナリオを構築した。
総合的な実験により,本手法は単モーダル連続学習法を著しく上回っていることが示された。
関連論文リスト
- HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning [33.868900473146496]
本稿では,協調型マルチモーダル制御のためのフレームワークであるHuMoを紹介する。
HuMoはサブタスクにおける専門的な最先端メソッドを超越している。
論文 参考訳(メタデータ) (2025-09-10T11:54:29Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition [10.36399200974439]
本稿では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習を併用した新しい手法を提案する。
このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-03-28T20:23:39Z) - A Multi-label Continual Learning Framework to Scale Deep Learning
Approaches for Packaging Equipment Monitoring [57.5099555438223]
連続シナリオにおけるマルチラベル分類を初めて研究した。
タスク数に関して対数的複雑性を持つ効率的なアプローチを提案する。
我々は,包装業界における実世界のマルチラベル予測問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2022-08-08T15:58:39Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。