論文の概要: Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.02554v1
- Date: Tue, 03 Mar 2026 03:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.617194
- Title: Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのための視覚基礎モデルからの一般化可能な知識蒸留
- Authors: Chonghua Lv, Dong Zhao, Shuang Wang, Dou Quan, Ning Huyan, Nicu Sebe, Zhun Zhong,
- Abstract要約: Generalizable Knowledge Distillation (GKD)は、一般化を明示的に強化する多段階フレームワークである。
5つの領域一般化ベンチマークの実験は、GKDが既存のKD法を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 73.32435804067883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has been widely applied in semantic segmentation to compress large models, but conventional approaches primarily preserve in-domain accuracy while neglecting out-of-domain generalization, which is essential under distribution shifts. This limitation becomes more severe with the emergence of vision foundation models (VFMs): although VFMs exhibit strong robustness on unseen data, distilling them with conventional KD often compromises this ability. We propose Generalizable Knowledge Distillation (GKD), a multi-stage framework that explicitly enhances generalization. GKD decouples representation learning from task learning. In the first stage, the student acquires domain-agnostic representations through selective feature distillation, and in the second stage, these representations are frozen for task adaptation, thereby mitigating overfitting to visible domains. To further support transfer, we introduce a query-based soft distillation mechanism, where student features act as queries to teacher representations to selectively retrieve transferable spatial knowledge from VFMs. Extensive experiments on five domain generalization benchmarks demonstrate that GKD consistently outperforms existing KD methods, achieving average gains of +1.9% in foundation-to-foundation (F2F) and +10.6% in foundation-to-local (F2L) distillation. The code will be available at https://github.com/Younger-hua/GKD.
- Abstract(参考訳): 知識蒸留(KD)は,大規模なモデルを圧縮するためにセマンティックセグメンテーションに広く応用されてきたが,従来の手法は主にドメイン内精度を保ちながら,領域外一般化は無視されている。
視覚基盤モデル(VFM)の出現により、この制限はより厳しくなり、VFMは見えないデータに強い堅牢性を示すが、従来のKDで蒸留することは、しばしばこの能力を損なう。
本稿では,一般化を明示する多段階フレームワークであるGeneralizable Knowledge Distillation (GKD)を提案する。
GKDはタスク学習から表現学習を分離する。
第1段階では、選択的特徴蒸留によりドメインに依存しない表現を取得し、第2段階では、これらの表現はタスク適応のために凍結され、過剰適合を可視領域に緩和する。
VFMから伝達可能な空間知識を選択的に取得するために,学生が教師表現に対するクエリとして機能する,問合せに基づく軟式蒸留機構を導入する。
5つの領域一般化ベンチマークの大規模な実験により、GKDは既存のKD法を一貫して上回り、ファンデーション・ツー・ファウンデーション(F2F)では平均1.9%、ファンデーション・ツー・ローカル(F2L)蒸留では+10.6%を達成している。
コードはhttps://github.com/Younger-hua/GKD.comで入手できる。
関連論文リスト
- Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspective [9.10299144143817]
Decoupled Knowledge Distillation (DKD)は、高度なデカップリングと戦略を通じて、ロジット知識の重要性を再強調する。
汎用デカップリング型知識蒸留(GDKD)の損失を低減した拡張版を導入する。
従来のDKDおよび他の先進的知識蒸留法と比較して,GDKDの優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-04T09:56:25Z) - Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift [62.50795372173394]
我々は,ライダーポイント雲のセマンティックセグメンテーションのための教師なし領域適応において,視覚基盤モデル(VFM)を利用したレシピの同定を行う。
その結果、パイプラインは4つの広く認識され、困難な設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-21T17:57:43Z) - UHKD: A Unified Framework for Heterogeneous Knowledge Distillation via Frequency-Domain Representations [5.382357091398666]
クロスアーキテクチャ転送に周波数領域の中間的特徴を利用するフレームワークとして、統一不均一知識蒸留(UHKD)が提案されている。
CIFAR-100とImageNet-1Kの実験では、最新の手法よりも5.59%、0.83%向上した。
論文 参考訳(メタデータ) (2025-10-28T06:41:43Z) - Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning [33.16156949633519]
局所最適化を克服するため、ゼロ外部依存性拡張モーメント検索フレームワークAMRを提案する。
AMRは、追加データなしで既存のアノテーションの曖昧な境界情報と意味的混乱を解決する。
AMRは従来の最先端のアプローチよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T14:19:38Z) - Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models [54.517276878748305]
ビジョンファウンデーションモデル(VFM)は、主にデータ中心の手法を用いて開発されている。
多くのオープンソースビジョンモデルは、ドメイン固有のデータに基づいて事前訓練されている。
本稿では,共同知識の伝達と保存を通じてVFMを訓練するためのモデル駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-08-20T13:30:23Z) - RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation [43.991262005295596]
本稿では,リモートセンシングにおける半教師付き学習を指導する新しいフレームワークであるRS-MTDF(Multi-Teacher Distillation and Fusion)を紹介する。
RS-MTDFは、複数の凍結したビジョン・ファンデーション・モデル(VFM)を専門教師として採用し、特徴レベルの蒸留を利用して生徒の特徴を堅牢な表現と整合させる。
提案手法は,LoveDAにおけるラベル比率の異なる既存手法よりも優れており,セマンティックカテゴリの大部分においてIoUが最も高い。
論文 参考訳(メタデータ) (2025-06-10T13:15:15Z) - DSAGL: Dual-Stream Attention-Guided Learning for Weakly Supervised Whole Slide Image Classification [5.260725801393189]
超高解像度でリッチなセマンティックな内容のため,WSIは癌診断に重要である。
DSAGL(Dual-Stream Attention-Guided Learning, DSAGL)は、教師/学生のアーキテクチャと2重ストリーム設計を組み合わせた、弱教師付き分類フレームワークである。
論文 参考訳(メタデータ) (2025-05-29T11:07:16Z) - Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。