Fugu-MT 論文翻訳(概要): Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

論文の概要: Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

arxiv url: http://arxiv.org/abs/2602.19863v2
Date: Tue, 24 Feb 2026 11:57:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 13:30:08.573474
Title: Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation
Title（参考訳）: より強靭な特徴:マルチスペクトル地球観測のためのデュアルティーラー蒸留
Authors: Filip Wolf, Blaž Rolih, Luka Čehovin Zajc,
Abstract要約: 基礎モデルは地球観測 (EO) を変えつつあるが、EOセンサーとモダリティの多様性により、単一の普遍モデルが非現実的である。マルチスペクトル画像のための二重教育用コントラスト蒸留フレームワークを提案する。提案手法はマルチスペクトル教師と光学的VFM教師を組み合わせることで,コヒーレントなクロスモーダル表現学習を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models are transforming Earth Observation (EO), yet the diversity of EO sensors and modalities makes a single universal model unrealistic. Multiple specialized EO foundation models (EOFMs) will likely coexist, making efficient knowledge transfer across modalities essential. Most existing EO pretraining relies on masked image modeling, which emphasizes local reconstruction but provides limited control over global semantic structure. To address this, we propose a dual-teacher contrastive distillation framework for multispectral imagery that aligns the student's pretraining objective with the contrastive self-distillation paradigm of modern optical vision foundation models (VFMs). Our approach combines a multispectral teacher with an optical VFM teacher, enabling coherent cross-modal representation learning. Experiments across diverse optical and multispectral benchmarks show that our model adapts to multispectral data without compromising performance on optical-only inputs, achieving state-of-the-art results in both settings, with an average improvement of 3.64 percentage points in semantic segmentation, 1.2 in change detection, and 1.31 in classification tasks. This demonstrates that contrastive distillation provides a principled and efficient approach to scalable representation learning across heterogeneous EO data sources. Project page: \textcolor{magenta}{https://wolfilip.github.io/DEO/}.
Abstract（参考訳）: 基礎モデルは地球観測 (EO) を変えつつあるが、EOセンサーとモダリティの多様性により、単一の普遍モデルが非現実的である。複数の特殊EOファンデーションモデル(EOFM)が共存し、モダリティ間の効率的な知識伝達が不可欠である。既存のEOプリトレーニングのほとんどは、局所的な再構成を強調するが、グローバルな意味構造に対する限定的な制御を提供するマスク付き画像モデリングに依存している。そこで本稿では, 学生の事前学習目標と, 近代光学視基盤モデル(VFM)の自己蒸留パラダイムを整合させる, マルチスペクトル画像のための二重教師によるコントラスト蒸留フレームワークを提案する。提案手法はマルチスペクトル教師と光学的VFM教師を組み合わせることで,コヒーレントなクロスモーダル表現学習を実現する。様々な光学およびマルチスペクトルのベンチマーク実験により、我々のモデルは光のみの入力の性能を損なうことなくマルチスペクトルデータに適応し、両方の設定で最先端の結果が得られ、セマンティックセグメンテーションでは平均3.64ポイント、変更検出では1.2ポイント、分類タスクでは1.31ポイント向上した。このことは、異種EOデータソースをまたいだスケーラブルな表現学習に対して、コントラスト蒸留が原則的かつ効率的なアプローチを提供することを示している。プロジェクトページ: \textcolor{magenta}{https://wolfilip.github.io/DEO/}。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model [23.785186661138734]
本研究では,視覚基礎モデルの多教師蒸留について検討し,計算コストの低いトレーニングを可能にする重要な要因を同定する。本稿では,SigLIP2 と DINOv3 から知識を同時に抽出する AMOE (Agglomerative Mixture-of-Experts Vision Foundation Models) について紹介する。非対称な関係知識蒸留損失は,教師の幾何学的特性を保ちながら,効果的な知識伝達を可能にしていることを示す。
論文参考訳（メタデータ） (2025-12-23T08:37:11Z)
WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation [4.654162664140336]
大規模な多様なデータセットで事前訓練されたモダンビジョン財団モデル(VFM)は、目覚ましい世界理解能力を示している。 We propose WEDepth, a novel approach that adapts VFMs for MDE without to modi-fying their structure and pretrained weights。提案手法では,VFMをマルチレベル特徴量として利用し,異なる表現レベルで事前知識を系統的に注入する。
論文参考訳（メタデータ） (2025-11-11T09:41:27Z)
Dynamic Pattern Alignment Learning for Pretraining Lightweight Human-Centric Vision Models [84.30626369903221]
本研究では,軽量な人中心視覚モデルを効率的に学習するための動的パターンアライメント学習(DPAL)を提案する。 DPALは軽量なHVMをガイドし、大きなHVMから典型的な人間の視覚パターンをすべて学習し、様々な人間中心の視覚タスクに一般化することができる。 15の挑戦的なデータセットで実施された大規模な実験は、DPALの有効性を実証している。
論文参考訳（メタデータ） (2025-08-10T02:27:06Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T17:59:47Z)
DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-19T08:31:30Z)
AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文参考訳（メタデータ） (2023-12-10T17:07:29Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Self-Supervised Monocular Depth Estimation with Self-Reference Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文参考訳（メタデータ） (2023-02-20T06:28:52Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)
Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-31T23:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。