論文の概要: Learning Yourself: Class-Incremental Semantic Segmentation with Language-Inspired Bootstrapped Disentanglement
- arxiv url: http://arxiv.org/abs/2509.00527v1
- Date: Sat, 30 Aug 2025 15:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.269289
- Title: Learning Yourself: Class-Incremental Semantic Segmentation with Language-Inspired Bootstrapped Disentanglement
- Title(参考訳): 自己学習:言語にインスパイアされたブートストラップ付きアンタングルによるクラスインクリメンタルセマンティックセマンティックセグメンテーション
- Authors: Ruitao Wu, Yifan Zhao, Jia Li,
- Abstract要約: CISS(Class-Incremental Semantic)は、過去の授業の知識を維持しながら、新しく導入されたクラスの継続的な学習を必要とする。
この現象には、インクリメンタルなプロセス中に意味的ミスアライメントによって引き起こされるプロトタイプ・フィーチャー・エンタングルメントと、動的データ進化によるバックグラウンド・インクリメント・エンタングルメントが含まれる。
言語にインスパイアされたBootstrapped Disentanglement framework (LBD)を紹介する。
我々はPascal VOCとADE20kの両方で、特にマルチステップシナリオで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 10.912635927529218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-Incremental Semantic Segmentation (CISS) requires continuous learning of newly introduced classes while retaining knowledge of past classes. By abstracting mainstream methods into two stages (visual feature extraction and prototype-feature matching), we identify a more fundamental challenge termed catastrophic semantic entanglement. This phenomenon involves Prototype-Feature Entanglement caused by semantic misalignment during the incremental process, and Background-Increment Entanglement due to dynamic data evolution. Existing techniques, which rely on visual feature learning without sufficient cues to distinguish targets, introduce significant noise and errors. To address these issues, we introduce a Language-inspired Bootstrapped Disentanglement framework (LBD). We leverage the prior class semantics of pre-trained visual-language models (e.g., CLIP) to guide the model in autonomously disentangling features through Language-guided Prototypical Disentanglement and Manifold Mutual Background Disentanglement. The former guides the disentangling of new prototypes by treating hand-crafted text features as topological templates, while the latter employs multiple learnable prototypes and mask-pooling-based supervision for background-incremental class disentanglement. By incorporating soft prompt tuning and encoder adaptation modifications, we further bridge the capability gap of CLIP between dense and sparse tasks, achieving state-of-the-art performance on both Pascal VOC and ADE20k, particularly in multi-step scenarios.
- Abstract(参考訳): クラスインクリメンタルセマンティックセマンティックセグメンテーション(CISS)は、過去のクラスの知識を維持しながら、新しく導入されたクラスの継続的な学習を必要とする。
主流の手法を2段階(視覚的特徴抽出とプロトタイプ-特徴マッチング)に抽象化することにより、破滅的意味的絡み合いと呼ばれるより基本的な課題を特定する。
この現象には、インクリメンタルなプロセス中に意味的ミスアライメントによって引き起こされるプロトタイプ・フィーチャー・エンタングルメントと、動的データ進化によるバックグラウンド・インクリメント・エンタングルメントが含まれる。
既存のテクニックは、ターゲットを識別するための十分な手がかりのない視覚的特徴学習に依存しており、大きなノイズとエラーをもたらす。
これらの問題に対処するため,言語に触発されたBootstrapped Disentanglement framework (LBD)を紹介した。
事前学習された視覚言語モデル(例えば、CLIP)の事前クラスセマンティクスを活用し、言語誘導型プロトタイプ・ディアンタングメントとマニフォールド相互背景ディアングルメントを通して、自律的ディエンタングリング特徴のモデルを導出する。
前者は手作りのテキスト特徴をトポロジカルテンプレートとして扱い、後者は複数の学習可能なプロトタイプとマスクプーリングに基づく監督を背景・増分クラスアンタングルとして採用している。
ソフトプロンプトチューニングとエンコーダ適応を組み込むことで,CLIPの高密度タスクとスパースタスク間の能力ギャップをさらに橋渡しし,特にマルチステップシナリオにおけるパスカルVOCとADE20kの最先端性能を実現する。
関連論文リスト
- Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.210280671911278]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文 参考訳(メタデータ) (2025-08-03T04:09:00Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Activating the Discriminability of Novel Classes for Few-shot
Segmentation [48.542627940781095]
本稿では,特徴符号化段階とセグメンテーションの予測段階の両方において,新規クラスの識別可能性を明示的に活性化することを提案する。
セグメンテーションの予測段階では、クエリ画像の高信頼画素を用いて自分自身を洗練できる自己修正オンラインフォアグラウンド分類器(SROFB)を学習する。
論文 参考訳(メタデータ) (2022-12-02T12:22:36Z) - Modeling the Background for Incremental and Weakly-Supervised Semantic
Segmentation [39.025848280224785]
セマンティックセグメンテーションのための新しい漸進的なクラス学習手法を提案する。
各トレーニングステップは、すべての可能なクラスのサブセットにのみアノテーションを提供するので、バックグラウンドクラスのピクセルはセマンティックシフトを示す。
本研究では,Pascal-VOC,ADE20K,Cityscapesのデータセットを広範囲に評価し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-01-31T16:33:21Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。