論文の概要: How Much of a Model Do We Need? Redundancy and Slimmability in Remote Sensing Foundation Models
- arxiv url: http://arxiv.org/abs/2601.22841v1
- Date: Fri, 30 Jan 2026 11:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.401986
- Title: How Much of a Model Do We Need? Redundancy and Slimmability in Remote Sensing Foundation Models
- Title(参考訳): モデルに必要な量 : リモートセンシング基礎モデルにおける冗長性とスリム性
- Authors: Leonard Hackel, Tom Burgert, Begüm Demir,
- Abstract要約: リモートセンシング (RS) における大規模基礎モデル (FM) はコンピュータビジョン (CV) で確立されたパラダイムに基づいて開発され, 様々な地球観測への応用が期待されている。
我々は,RS FM がCV FM よりもかなり小さいパラメータ化状態に入るという仮説を立てた。
我々は,4つの下流分類タスクにおいて,6つの最先端RS FMの表現冗長性を測定するために,ポストホックスライミングを用いる。
本研究は,資源制約環境の実践的展開戦略と,RSのスケーリングパラダイムに挑戦する診断ツールとして,ホック後のスリム性を確立した。
- 参考スコア(独自算出の注目度): 5.429166905724048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale foundation models (FMs) in remote sensing (RS) are developed based on the paradigms established in computer vision (CV) and have shown promise for various Earth observation applications. However, the direct transfer of scaling assumptions from CV to RS has not been adequately examined. We hypothesize that RS FMs enter an overparameterized regime at substantially smaller scales than their CV counterparts, where increasing parameter count primarily induces redundant representations rather than qualitatively new abstractions. To test this hypothesis, we use post-hoc slimming, where we uniformly reduce the width of pretrained encoder, as a tool to measure representational redundancy across six state-of-the-art RS FMs on four downstream classification tasks. Our findings reveal a significant contrast with those in the CV domain: while a post-hoc slimmed masked autoencoder (MAE) trained on ImageNet retains less than 10% accuracy at 1% FLOPs, RS FMs maintain over 71% relative accuracy at the same budget. This sevenfold difference provides strong empirical support for our hypothesis. We further demonstrate that learned slimmable training can improve both Momentum Contrast (MoCo)- and MAE- based models. In addition, through the explained variance ratio and the feature correlation analysis, we provide mechanistic explanations showing that RS FMs distribute task-relevant information with high redundancy. Our findings establish post-hoc slimmability as both a practical deployment strategy for resource-constrained environments and a diagnostic tool that challenges the prevailing scaling paradigm in RS. Upon acceptance, we will publish all code.
- Abstract(参考訳): リモートセンシング (RS) における大規模基礎モデル (FM) はコンピュータビジョン (CV) で確立されたパラダイムに基づいて開発され, 様々な地球観測への応用が期待されている。
しかし, CVからRSへのスケーリング仮定の直接移動は十分に検討されていない。
パラメータ数の増加は、定性的に新しい抽象化ではなく、主に冗長な表現を誘導する。
この仮説を検証するために、私たちはポストホックスライミング(post-hoc slimming)を用いて、トレーニング済みエンコーダの幅を均一に減らし、4つの下流分類タスクにおいて、6つの最先端RS FM間の表現的冗長度を測定する。
ImageNetでトレーニングした仮面自動エンコーダ(MAE)は,1%FLOPsで10%未満の精度を維持しているのに対し,RS FMsは同じ予算で71%以上の相対的精度を維持している。
この7倍の違いは、我々の仮説に強い実証的支持を与える。
さらに,MoCo(Momentum Contrast)モデルとMAE(MaE-based Model)モデルの両方を改善することができることを示す。
さらに、説明分散比と特徴相関分析により、RS FMがタスク関連情報を高い冗長性で分散していることを示す力学的な説明を提供する。
本研究は,資源制約環境の実践的展開戦略と,RSのスケーリングパラダイムに挑戦する診断ツールとして,ホック後のスリム性を確立した。
受理したら、すべてのコードを公開します。
関連論文リスト
- Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - PeftCD: Leveraging Vision Foundation Models with Parameter-Efficient Fine-Tuning for Remote Sensing Change Detection [9.241842285556134]
PeftCDはVision Foundation Models上に構築された変更検出フレームワークである。
重量共有エンコーダはVFMから派生したもので、LoRAとAdapterモジュールはシームレスに統合される。
複数の公開データセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-11T16:08:43Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Voxelmorph++ Going beyond the cranial vault with keypoint supervision
and multi-channel instance optimisation [8.88841928746097]
近年のLearn2Regベンチマークでは,単スケールU-Netアーキテクチャーは腹部または患者内肺登録の最先端性能に劣っている。
本稿では、この精度のギャップを大幅に減らすための2つの簡単な手順を提案する。
まず、離散化されたヒートマップを予測する新しいネットワークヘッドを備えたキーポイント・セルフスーパービジョンを用いる。
次に、複数の学習した微調整ステップを、手作りの機能とAdamオプティマイザでひとつのインスタンスに置き換える。
論文 参考訳(メタデータ) (2022-02-28T19:23:29Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。