論文の概要: Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation
- arxiv url: http://arxiv.org/abs/2601.09108v1
- Date: Wed, 14 Jan 2026 03:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.238774
- Title: Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation
- Title(参考訳): 光リモートセンシングオブジェクトセグメンテーションのための大規模モデルの動的ウェーブレットエキスパートガイドによる微調整
- Authors: Yanguang Sun, Chao Wang, Jian Yang, Lei Luo,
- Abstract要約: 本稿では,WEFTと呼ばれるトレーニング可能なパラメータの少ない動的ウェーブレットエキスパート誘導ファインチューニングパラダイムを提案する。
我々のWEFTは、3つのORSIデータセット上で21の最先端(SOTA)メソッドより優れているだけでなく、カモフラージュ、自然、医療シナリオにおいて最適な結果が得られる。
- 参考スコア(独自算出の注目度): 17.208704391815285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately localizing and segmenting relevant objects from optical remote sensing images (ORSIs) is critical for advancing remote sensing applications. Existing methods are typically built upon moderate-scale pre-trained models and employ diverse optimization strategies to achieve promising performance under full-parameter fine-tuning. In fact, deeper and larger-scale foundation models can provide stronger support for performance improvement. However, due to their massive number of parameters, directly adopting full-parameter fine-tuning leads to pronounced training difficulties, such as excessive GPU memory consumption and high computational costs, which result in extremely limited exploration of large-scale models in existing works. In this paper, we propose a novel dynamic wavelet expert-guided fine-tuning paradigm with fewer trainable parameters, dubbed WEFT, which efficiently adapts large-scale foundation models to ORSIs segmentation tasks by leveraging the guidance of wavelet experts. Specifically, we introduce a task-specific wavelet expert extractor to model wavelet experts from different perspectives and dynamically regulate their outputs, thereby generating trainable features enriched with task-specific information for subsequent fine-tuning. Furthermore, we construct an expert-guided conditional adapter that first enhances the fine-grained perception of frozen features for specific tasks by injecting trainable features, and then iteratively updates the information of both types of feature, allowing for efficient fine-tuning. Extensive experiments show that our WEFT not only outperforms 21 state-of-the-art (SOTA) methods on three ORSIs datasets, but also achieves optimal results in camouflage, natural, and medical scenarios. The source code is available at: https://github.com/CSYSI/WEFT.
- Abstract(参考訳): 光リモートセンシング画像(ORSI)からの関連オブジェクトの正確なローカライズとセグメンテーションは、リモートセンシングアプリケーションの進展に不可欠である。
既存の手法は、通常、中規模で事前訓練されたモデルに基づいて構築され、様々な最適化戦略を用いて、フルパラメータの微調整で有望な性能を達成する。
実際、より深く、より大規模な基盤モデルは、パフォーマンス改善のためのより強力なサポートを提供することができる。
しかし、パラメータの多さから、フルパラメータの微調整を直接適用することで、過剰なGPUメモリ消費や高い計算コストといったトレーニング上の困難が顕在化し、既存の作業で大規模なモデルを極めて限定的に探索する結果となった。
本稿では,ウェーブレットの専門家による指導を利用して,大規模な基礎モデルをORSIのセグメンテーションタスクに効率的に適応するWEFTと呼ばれる,トレーニング可能なパラメータの少ない新しい動的ウェーブレットエキスパート誘導ファインチューニングパラダイムを提案する。
具体的には、タスク固有のウェーブレットエキスパート抽出器を導入し、異なる視点からウェーブレットの専門家をモデル化し、その出力を動的に制御することで、タスク固有の情報に富んだトレーニング可能な特徴を生成し、その後の微調整を行う。
さらに、訓練可能な特徴を注入することで、特定のタスクに対する凍結した特徴のきめ細かい認識を強化し、その後、両方の特徴の情報を反復的に更新し、効率的な微調整を可能にする専門家誘導型条件付きアダプタを構築した。
大規模な実験により、我々のWEFTは3つのORSIデータセット上で21の最先端(SOTA)メソッドより優れているだけでなく、カモフラージュ、自然、医療シナリオにおいて最適な結果が得られることが示された。
ソースコードは、https://github.com/CSYSI/WEFT.comで入手できる。
関連論文リスト
- Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - Task-Specific Directions: Definition, Exploration, and Utilization in Parameter Efficient Fine-Tuning [65.31677646659895]
大規模な言語モデルは、下流タスクで素晴らしいパフォーマンスを示すが、全てのパラメータを完全に微調整する場合は、リソース消費がかなり必要である。
本稿では,タスク固有の方向(TSD)を明確に定義するフレームワークを提案し,その特性と実用化の課題について検討する。
次に、微調整過程におけるTLDの影響を最大化する新しいアプローチであるLoRA-Dashを導入する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。