論文の概要: Evolving Without Ending: Unifying Multimodal Incremental Learning for Continual Panoptic Perception
- arxiv url: http://arxiv.org/abs/2601.15643v1
- Date: Thu, 22 Jan 2026 04:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.4928
- Title: Evolving Without Ending: Unifying Multimodal Incremental Learning for Continual Panoptic Perception
- Title(参考訳): 終わらない進化:連続的汎視知覚のためのマルチモーダルインクリメンタルラーニングの統合
- Authors: Bo Yuan, Danpei Zhao, Wentao Li, Tian Li, Zhiguo Jiang,
- Abstract要約: 連続学習(CL)は、インテリジェントな知覚AIシステムを開発するための大きな取り組みである。
CLを連続的汎視知覚(CPP)に拡張し,画素レベル,インスタンスレベル,画像レベルの共同解釈を通じて包括的イメージ知覚を高める。
提案モデルには非対称な擬似ラベル方式が組み込まれており、模範的なリプレイを伴わずにモデルを進化させることができる。
- 参考スコア(独自算出の注目度): 17.590466606165094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) is a great endeavour in developing intelligent perception AI systems. However, the pioneer research has predominantly focus on single-task CL, which restricts the potential in multi-task and multimodal scenarios. Beyond the well-known issue of catastrophic forgetting, the multi-task CL also brings semantic obfuscation across multimodal alignment, leading to severe model degradation during incremental training steps. In this paper, we extend CL to continual panoptic perception (CPP), integrating multimodal and multi-task CL to enhance comprehensive image perception through pixel-level, instance-level, and image-level joint interpretation. We formalize the CL task in multimodal scenarios and propose an end-to-end continual panoptic perception model. Concretely, CPP model features a collaborative cross-modal encoder (CCE) for multimodal embedding. We also propose a malleable knowledge inheritance module via contrastive feature distillation and instance distillation, addressing catastrophic forgetting from task-interactive boosting manner. Furthermore, we propose a cross-modal consistency constraint and develop CPP+, ensuring multimodal semantic alignment for model updating under multi-task incremental scenarios. Additionally, our proposed model incorporates an asymmetric pseudo-labeling manner, enabling model evolving without exemplar replay. Extensive experiments on multimodal datasets and diverse CL tasks demonstrate the superiority of the proposed model, particularly in fine-grained CL tasks.
- Abstract(参考訳): 連続学習(CL)は、インテリジェントな知覚AIシステムを開発するための大きな取り組みである。
しかしながら、先駆的な研究は、主にマルチタスクおよびマルチモーダルシナリオのポテンシャルを制限するシングルタスクCLに焦点を当てている。
破滅的な忘れ物というよく知られた問題に加えて、マルチタスクCLはマルチモーダルアライメントを横断するセマンティック難読化をもたらし、インクリメンタルなトレーニングステップ中に深刻なモデル劣化を引き起こす。
本稿では,CLを連続的汎視知覚(CPP)に拡張し,マルチモーダルとマルチタスクのCLを統合し,画素レベル,インスタンスレベル,画像レベルの共同解釈を通じて包括的イメージ知覚を強化する。
CLタスクをマルチモーダルシナリオで形式化し、終端から終端までの汎視知覚モデルを提案する。
具体的には、CPPモデルはマルチモーダル埋め込みのためのコラボレーティブクロスモーダルエンコーダ(CCE)を備えている。
また,コントラスト的特徴蒸留と事例蒸留による知識継承モジュールを提案する。
さらに,マルチタスクインクリメンタルシナリオ下でのモデル更新において,マルチモーダルなセマンティックアライメントを確保するために,クロスモーダルな一貫性制約を提案し,CPP+を開発する。
さらに,提案モデルには非対称な擬似ラベル方式が組み込まれており,模範的なリプレイを伴わずにモデルを進化させることができる。
マルチモーダルデータセットと多種多様なCLタスクに関する大規模な実験は、特にきめ細かいCLタスクにおいて提案されたモデルの優越性を実証している。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。
SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。
具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。
協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文 参考訳(メタデータ) (2025-10-14T16:43:22Z) - Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives [61.58574200236532]
きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。
本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:46:52Z) - Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文 参考訳(メタデータ) (2025-03-05T16:33:10Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。