論文の概要: Revisiting Continual Semantic Segmentation with Pre-trained Vision Models
- arxiv url: http://arxiv.org/abs/2508.04267v1
- Date: Wed, 06 Aug 2025 09:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.66495
- Title: Revisiting Continual Semantic Segmentation with Pre-trained Vision Models
- Title(参考訳): 事前学習型視覚モデルによる連続的セマンティックセマンティックセグメンテーションの再検討
- Authors: Duzhen Zhang, Yong Ren, Wei Cong, Junhao Zheng, Qiaoyi Su, Shuncheng Jia, Zhong-Zhi Li, Xuanle Zhao, Ye Bai, Feilong Chen, Qi Tian, Tielin Zhang,
- Abstract要約: 連続セマンティック(CSS)は、それまで遭遇したクラスについての知識を保持しながら、新しいクラスを段階的に分割することを目指している。
CSSの最近の進歩は、事前訓練されたビジョンモデル(PVM)をバックボーンとして採用することで推進されている。
既存の戦略の中で、クラス間でモデルを逐次微調整するDirect Fine-Tuning (DFT)が最も単純なアプローチである。
- 参考スコア(独自算出の注目度): 53.56065605992639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Semantic Segmentation (CSS) seeks to incrementally learn to segment novel classes while preserving knowledge of previously encountered ones. Recent advancements in CSS have been largely driven by the adoption of Pre-trained Vision Models (PVMs) as backbones. Among existing strategies, Direct Fine-Tuning (DFT), which sequentially fine-tunes the model across classes, remains the most straightforward approach. Prior work often regards DFT as a performance lower bound due to its presumed vulnerability to severe catastrophic forgetting, leading to the development of numerous complex mitigation techniques. However, we contend that this prevailing assumption is flawed. In this paper, we systematically revisit forgetting in DFT across two standard benchmarks, Pascal VOC 2012 and ADE20K, under eight CSS settings using two representative PVM backbones: ResNet101 and Swin-B. Through a detailed probing analysis, our findings reveal that existing methods significantly underestimate the inherent anti-forgetting capabilities of PVMs. Even under DFT, PVMs retain previously learned knowledge with minimal forgetting. Further investigation of the feature space indicates that the observed forgetting primarily arises from the classifier's drift away from the PVM, rather than from degradation of the backbone representations. Based on this insight, we propose DFT*, a simple yet effective enhancement to DFT that incorporates strategies such as freezing the PVM backbone and previously learned classifiers, as well as pre-allocating future classifiers. Extensive experiments show that DFT* consistently achieves competitive or superior performance compared to sixteen state-of-the-art CSS methods, while requiring substantially fewer trainable parameters and less training time.
- Abstract(参考訳): 連続セマンティックセグメンテーション (CSS) は、それまで遭遇したセマンティックセグメンテーションの知識を保存しつつ、新しいクラスのセグメンテーションを漸進的に学ぼうとしている。
CSSの最近の進歩は、主に、トレーニング済みビジョンモデル(PVM)をバックボーンとして採用することによるものだ。
既存の戦略の中で、クラス間でモデルを逐次微調整するDirect Fine-Tuning (DFT)が最も単純なアプローチである。
以前の研究では、DFTは深刻な破滅的な忘れ込みに対する脆弱性と推定される性能の低い境界と見なされ、多くの複雑な緩和技術の開発につながった。
しかし、この一般的な仮定は欠陥があると主張する。
本稿では,2つの標準ベンチマークである Pascal VOC 2012 と ADE20K を,代表的な PVM バックボーンである ResNet101 と Swin-B を用いて,8つのCSS設定の下で,DFT における忘れを体系的に再検討する。
詳細な探索分析により,既存の手法はPVMの固有のアンチフォッゲッティング能力を著しく過小評価していることが明らかとなった。
DFTの下でも、PVMは最小限の忘れ物で学習した知識を維持している。
特徴空間のさらなる研究は、観察された忘れは、主に、バックボーン表現の劣化からではなく、分類器がPVMから遠ざかることから生じることを示している。
そこで本研究では,PVMバックボーンの凍結や,以前に学習した分類器の凍結,および将来の分類器の事前配置といった戦略を取り入れた,単純かつ効果的なDFTの強化手法であるDFT*を提案する。
大規模な実験では、DFT*は16の最先端CSSメソッドと比較して、競争力や優れたパフォーマンスを一貫して達成し、トレーニング可能なパラメータは大幅に少なく、トレーニング時間も少なくなっている。
関連論文リスト
- Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [23.99424961055015]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - PTMs-TSCIL Pre-Trained Models Based Class-Incremental Learning [7.784244204592032]
時系列データのためのクラスインクリメンタルラーニング(CIL)は、新たな知識獲得のための破滅的な忘れと可塑性に対する安定性のバランスをとる上で、課題に直面している。
PTMを用いた時系列クラスインクリメンタルラーニング(TSCIL)の第1回研究について紹介する。
論文 参考訳(メタデータ) (2025-03-10T10:27:21Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Majorization-Minimization for sparse SVMs [46.99165837639182]
サポートベクタマシン(SVM)は、数十年前に教師付きフレームワークの下でバイナリ分類タスクを実行するために導入された。
それらはしばしば他の教師付き手法よりも優れており、マシンラーニング分野において最も一般的なアプローチの1つである。
本研究では,スムーズなスパースプロモーティング型正方形ヒンジ損失最小化によるSVMのトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-08-31T17:03:16Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。