論文の概要: Rethinking Pan-sharpening: Principled Design, Unified Training, and a Universal Loss Surpass Brute-Force Scaling
- arxiv url: http://arxiv.org/abs/2507.15059v1
- Date: Sun, 20 Jul 2025 17:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.173746
- Title: Rethinking Pan-sharpening: Principled Design, Unified Training, and a Universal Loss Surpass Brute-Force Scaling
- Title(参考訳): パンシャーペン再考: 原則設計、統一トレーニング、ユニバーサルロスサーパスブルートフォーススケーリング
- Authors: Ran Zhang, Xuanhua He, Li Xueheng, Ke Cao, Liu Liu, Wenbo Xu, Fang Jiabin, Yang Qize, Jie Zhang,
- Abstract要約: PanTinyは、効率性とロバストなパフォーマンスの両方のために設計された、シングルステップのパンシャーピングフレームワークである。
1つのコンパクトなモデルを3つの異なる衛星データセット上で同時に訓練する、マルチインワントレーニングパラダイムを導入する。
私たちの研究は、パンシャーピングのための効率的で汎用的でデータ指向のモデルを作成するための、コミュニティ全体のシフトを提唱しています。
- 参考スコア(独自算出の注目度): 8.479172294285181
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The field of pan-sharpening has recently seen a trend towards increasingly large and complex models, often trained on single, specific satellite datasets. This approach, however, leads to high computational overhead and poor generalization on full resolution data, a paradigm we challenge in this paper. In response to this issue, we propose PanTiny, a lightweight, single-step pan-sharpening framework designed for both efficiency and robust performance. More critically, we introduce multiple-in-one training paradigm, where a single, compact model is trained simultaneously on three distinct satellite datasets (WV2, WV3, and GF2) with different resolution and spectral information. Our experiments show that this unified training strategy not only simplifies deployment but also significantly boosts generalization on full-resolution data. Further, we introduce a universally powerful composite loss function that elevates the performance of almost all of models for pan-sharpening, pushing state-of-the-art metrics into a new era. Our PanTiny model, benefiting from these innovations, achieves a superior performance-to-efficiency balance, outperforming most larger, specialized models. Through extensive ablation studies, we validate that principled engineering in model design, training paradigms, and loss functions can surpass brute-force scaling. Our work advocates for a community-wide shift towards creating efficient, generalizable, and data-conscious models for pan-sharpening. The code is available at https://github.com/Zirconium233/PanTiny .
- Abstract(参考訳): パンシャーピングの分野は最近、単一の特定の衛星データセットで訓練される大規模で複雑なモデルに傾向が見られた。
しかし、この手法は計算オーバーヘッドが高く、全解像度データに対する一般化が貧弱になる。
この問題に対して我々は,効率性とロバストなパフォーマンスの両方のために設計された軽量でシングルステップのパンシャーピングフレームワークであるPanTinyを提案する。
より重要なことは、単一のコンパクトモデルが3つの異なる衛星データセット(WV2、WV3、GF2)で同時に訓練され、解像度とスペクトル情報が異なるマルチインワントレーニングパラダイムを導入することである。
実験の結果,この統合学習戦略は展開を単純化するだけでなく,全解像度データの一般化を著しく促進することがわかった。
さらに,パンシャーピングにおけるほぼすべてのモデルの性能を高め,最先端のメトリクスを新しい時代へと押し上げる,普遍的に強力な複合損失関数を導入する。
当社のPanTinyモデルは、これらのイノベーションの恩恵を受け、優れたパフォーマンスと効率のバランスを実現し、より大規模で特殊なモデルよりも優れています。
広範囲にわたるアブレーション研究を通じて、モデル設計、訓練パラダイム、損失関数の原理工学がブルートフォーススケーリングを超越できることを検証する。
私たちの研究は、パンシャーピングのための効率的で汎用的でデータ指向のモデルを作成するための、コミュニティ全体のシフトを提唱しています。
コードはhttps://github.com/Zirconium233/PanTinyで入手できる。
関連論文リスト
- KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [46.95431131609286]
汎用的・コンパクトな埋め込みモデルである KaLM-Embedding-V2 は汎用テキスト埋め込みタスクにおいて優れた性能を発揮する。
i) 大規模弱教師付きオープンソースコーパスの事前トレーニング、(ii) 高品質な検索と非検索データセットの微調整、(iii) 堅牢な一般化のためのモデル-バックアップパラメータ平均化。
論文 参考訳(メタデータ) (2025-06-26T01:09:44Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - Towards Efficient Model-Heterogeneity Federated Learning for Large Models [18.008063521900702]
モデル・ヘテロジニティ・フェデレーション・ラーニング(MHFL)に適した革新的微調整フレームワークであるHeteroTuneを紹介する。
特に,マルチブランチ・クロスモデルアグリゲータを用いたFedAdapterという,パラメータ効率の高いファインチューニング構造を提案する。
軽量なFedAdapterの利点は、計算オーバーヘッドと通信オーバーヘッドの両方を大幅に削減することにある。
論文 参考訳(メタデータ) (2024-11-25T09:58:51Z) - Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。