論文の概要: Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training
- arxiv url: http://arxiv.org/abs/2509.17816v1
- Date: Mon, 22 Sep 2025 14:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.434317
- Title: Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training
- Title(参考訳): 自己監督型事前訓練によるセマンティックセグメンテーションの強化
- Authors: Brown Ebouky, Ajad Chhatkuli, Cristiano Malossi, Christoph Studer, Roy Assaf, Andrea Bartezzaghi,
- Abstract要約: 自己教師付き学習(SSL)は、基礎モデルをトレーニングするための中心的なパラダイムとして登場した。
GLAREは,下流セグメンテーション性能の向上を目的とした,新規な自己教師型事前学習タスクである。
- 参考スコア(独自算出の注目度): 11.897717409259492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has emerged as a central paradigm for training foundation models by leveraging large-scale unlabeled datasets, often producing representations with strong generalization capabilities. These models are typically pre-trained on general-purpose datasets such as ImageNet and subsequently adapted to various downstream tasks through finetuning. While recent advances have explored parameter-efficient strategies for adapting pre-trained models, extending SSL pre-training itself to new domains - particularly under limited data regimes and for dense prediction tasks - remains underexplored. In this work, we address the problem of adapting vision foundation models to new domains in an unsupervised and data-efficient manner, specifically targeting downstream semantic segmentation. We propose GLARE (Global Local and Regional Enforcement), a novel continual self-supervised pre-training task designed to enhance downstream segmentation performance. GLARE introduces patch-level augmentations to encourage local consistency and incorporates a regional consistency constraint that leverages spatial semantics in the data. For efficient continual pre-training, we initialize Vision Transformers (ViTs) with weights from existing SSL models and update only lightweight adapter modules - specifically UniAdapter - while keeping the rest of the backbone frozen. Experiments across multiple semantic segmentation benchmarks on different domains demonstrate that GLARE consistently improves downstream performance with minimal computational and parameter overhead.
- Abstract(参考訳): 自己教師付き学習(SSL)は、大規模なラベルなしデータセットを活用して基礎モデルをトレーニングするための中心的なパラダイムとして現れ、しばしば強力な一般化能力を持つ表現を生み出している。
これらのモデルは通常、ImageNetのような汎用データセットで事前トレーニングされ、その後、微調整によって様々な下流タスクに適応する。
最近の進歩では、事前訓練されたモデルを適用するためのパラメータ効率の戦略が検討されているが、SSLの事前トレーニング自体を新しいドメイン(特にデータレシエーションの制限や高密度な予測タスク)に拡張することは、まだ未定である。
本研究では、特に下流セマンティックセマンティックセグメンテーションを対象とする、教師なしかつデータ効率のよい新しいドメインにビジョンファウンデーションモデルを適用するという課題に対処する。
GLARE(Global Local and Regional Enforcement)は,下流セグメンテーション性能の向上を目的とした,新たな自己指導型事前学習タスクである。
GLAREは、局所的な一貫性を促進するためにパッチレベルの拡張を導入し、データの空間的セマンティクスを活用するような局所的な一貫性の制約を取り入れている。
効率的な継続事前トレーニングのために、既存のSSLモデルからの重み付けでViT(Vision Transformer)を初期化し、バックボーンの残りの部分を凍結したまま、軽量なアダプタモジュール(特にUniAdapter)のみを更新します。
異なる領域における複数のセマンティックセグメンテーションベンチマークによる実験により、GLAREは最小の計算量とパラメータオーバーヘッドでダウンストリーム性能を一貫して改善することを示した。
関連論文リスト
- Set Pivot Learning: Redefining Generalized Segmentation with Vision Foundation Models [15.321114178936554]
本稿では,ビジョンファウンデーションモデル(VFM)に基づくドメイン一般化(DG)を再定義するパラダイムシフトであるSet Pivot Learningの概念を紹介する。
従来のDGは、トレーニング中にターゲットドメインがアクセスできないと仮定するが、VFMの出現により、この仮定は不明確で時代遅れである。
VFMに基づく新しいドメインマイグレーションタスクであるSet Pivot Learning (SPL)を提案する。
論文 参考訳(メタデータ) (2025-08-03T04:20:35Z) - Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - Low-Rank Continual Pyramid Vision Transformer: Incrementally Segment Whole-Body Organs in CT with Light-Weighted Adaptation [10.746776960260297]
軽量低ランク適応 (LoRA) を用いた新しい連続体器官分割モデルを提案する。
まず、最初のタスクでピラミッドビジョントランスフォーマー(PVT)ベースセグメンテーションモデルをトレーニングし、その後、新しい学習タスク毎に凍結モデルに軽量でトレーニング可能なLoRAパラメータを継続的に追加する。
提案モデルでは, 破滅的忘れを伴わず, 低パラメータ増加率を維持しながら, 新しい臓器を連続的に分割する。
論文 参考訳(メタデータ) (2024-10-07T02:00:13Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。