論文の概要: Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment
- arxiv url: http://arxiv.org/abs/2404.18253v3
- Date: Thu, 2 May 2024 04:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 11:27:18.141999
- Title: Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment
- Title(参考訳): 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング
- Authors: Tengjun Huang,
- Abstract要約: ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA.
- Abstract(参考訳): Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。
このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。
具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。
この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。
本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。
注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。
実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。
その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。
本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。
コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。
関連論文リスト
- MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-04T02:22:40Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Improving Multi-task Learning via Seeking Task-based Flat Regions [43.85516379095757]
MTL(Multi-Task Learning)は、ディープニューラルネットワークをトレーニングするための強力な学習パラダイムである。
MTLには、究極の勾配降下方向を導出するためにタスク勾配を操作することに焦点を当てた、新たな作業ラインがある。
単タスク学習におけるモデル一般化能力を向上するシャープネス認識最小化という,最近導入されたトレーニング手法を活用することを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:19:30Z) - Mitigating Negative Transfer in Multi-Task Learning with Exponential
Moving Average Loss Weighting Strategies [0.981328290471248]
MTL(Multi-Task Learning)は、ディープラーニングへの関心が高まっている分野である。
特定のタスクがトレーニングを支配し、他のタスクのパフォーマンスを損なう可能性があるため、MTLは実用的ではない。
指数移動平均によるスケーリングに基づく損失分散手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T09:22:48Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。