論文の概要: Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation
- arxiv url: http://arxiv.org/abs/2602.19863v2
- Date: Tue, 24 Feb 2026 11:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 13:30:08.573474
- Title: Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation
- Title(参考訳): より強靭な特徴:マルチスペクトル地球観測のためのデュアルティーラー蒸留
- Authors: Filip Wolf, Blaž Rolih, Luka Čehovin Zajc,
- Abstract要約: 基礎モデルは地球観測 (EO) を変えつつあるが、EOセンサーとモダリティの多様性により、単一の普遍モデルが非現実的である。
マルチスペクトル画像のための二重教育用コントラスト蒸留フレームワークを提案する。
提案手法はマルチスペクトル教師と光学的VFM教師を組み合わせることで,コヒーレントなクロスモーダル表現学習を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are transforming Earth Observation (EO), yet the diversity of EO sensors and modalities makes a single universal model unrealistic. Multiple specialized EO foundation models (EOFMs) will likely coexist, making efficient knowledge transfer across modalities essential. Most existing EO pretraining relies on masked image modeling, which emphasizes local reconstruction but provides limited control over global semantic structure. To address this, we propose a dual-teacher contrastive distillation framework for multispectral imagery that aligns the student's pretraining objective with the contrastive self-distillation paradigm of modern optical vision foundation models (VFMs). Our approach combines a multispectral teacher with an optical VFM teacher, enabling coherent cross-modal representation learning. Experiments across diverse optical and multispectral benchmarks show that our model adapts to multispectral data without compromising performance on optical-only inputs, achieving state-of-the-art results in both settings, with an average improvement of 3.64 percentage points in semantic segmentation, 1.2 in change detection, and 1.31 in classification tasks. This demonstrates that contrastive distillation provides a principled and efficient approach to scalable representation learning across heterogeneous EO data sources. Project page: \textcolor{magenta}{https://wolfilip.github.io/DEO/}.
- Abstract(参考訳): 基礎モデルは地球観測 (EO) を変えつつあるが、EOセンサーとモダリティの多様性により、単一の普遍モデルが非現実的である。
複数の特殊EOファンデーションモデル(EOFM)が共存し、モダリティ間の効率的な知識伝達が不可欠である。
既存のEOプリトレーニングのほとんどは、局所的な再構成を強調するが、グローバルな意味構造に対する限定的な制御を提供するマスク付き画像モデリングに依存している。
そこで本稿では, 学生の事前学習目標と, 近代光学視基盤モデル(VFM)の自己蒸留パラダイムを整合させる, マルチスペクトル画像のための二重教師によるコントラスト蒸留フレームワークを提案する。
提案手法はマルチスペクトル教師と光学的VFM教師を組み合わせることで,コヒーレントなクロスモーダル表現学習を実現する。
様々な光学およびマルチスペクトルのベンチマーク実験により、我々のモデルは光のみの入力の性能を損なうことなくマルチスペクトルデータに適応し、両方の設定で最先端の結果が得られ、セマンティックセグメンテーションでは平均3.64ポイント、変更検出では1.2ポイント、分類タスクでは1.31ポイント向上した。
このことは、異種EOデータソースをまたいだスケーラブルな表現学習に対して、コントラスト蒸留が原則的かつ効率的なアプローチを提供することを示している。
プロジェクトページ: \textcolor{magenta}{https://wolfilip.github.io/DEO/}。
関連論文リスト
- AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model [23.785186661138734]
本研究では,視覚基礎モデルの多教師蒸留について検討し,計算コストの低いトレーニングを可能にする重要な要因を同定する。
本稿では,SigLIP2 と DINOv3 から知識を同時に抽出する AMOE (Agglomerative Mixture-of-Experts Vision Foundation Models) について紹介する。
非対称な関係知識蒸留損失は,教師の幾何学的特性を保ちながら,効果的な知識伝達を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-12-23T08:37:11Z) - WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation [4.654162664140336]
大規模な多様なデータセットで事前訓練されたモダンビジョン財団モデル(VFM)は、目覚ましい世界理解能力を示している。
We propose WEDepth, a novel approach that adapts VFMs for MDE without to modi-fying their structure and pretrained weights。
提案手法では,VFMをマルチレベル特徴量として利用し,異なる表現レベルで事前知識を系統的に注入する。
論文 参考訳(メタデータ) (2025-11-11T09:41:27Z) - Dynamic Pattern Alignment Learning for Pretraining Lightweight Human-Centric Vision Models [84.30626369903221]
本研究では,軽量な人中心視覚モデルを効率的に学習するための動的パターンアライメント学習(DPAL)を提案する。
DPALは軽量なHVMをガイドし、大きなHVMから典型的な人間の視覚パターンをすべて学習し、様々な人間中心の視覚タスクに一般化することができる。
15の挑戦的なデータセットで実施された大規模な実験は、DPALの有効性を実証している。
論文 参考訳(メタデータ) (2025-08-10T02:27:06Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。