論文の概要: Parameter-Efficient Transfer Learning for Remote Sensing Image-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2308.12509v1
- Date: Thu, 24 Aug 2023 02:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:46:34.981001
- Title: Parameter-Efficient Transfer Learning for Remote Sensing Image-Text
Retrieval
- Title(参考訳): リモートセンシング画像テキスト検索のためのパラメータ効率の高い転送学習
- Authors: Yuan Yuan, Yang Zhan, and Zhitong Xiong
- Abstract要約: 本研究では,画像テキスト検索タスクにおいて,自然領域から RS 領域に視覚言語知識を伝達するためのパラメータ効率変換学習(PETL)手法について検討する。
提案モデルでは0.16万のトレーニングパラメータしか含まないため,完全微調整に比べて98.9%のパラメータ削減が可能である。
検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を達成している。
- 参考スコア(独自算出の注目度): 10.84733740863356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language pre-training (VLP) models have experienced a surge in
popularity recently. By fine-tuning them on specific datasets, significant
performance improvements have been observed in various tasks. However, full
fine-tuning of VLP models not only consumes a significant amount of
computational resources but also has a significant environmental impact.
Moreover, as remote sensing (RS) data is constantly being updated, full
fine-tuning may not be practical for real-world applications. To address this
issue, in this work, we investigate the parameter-efficient transfer learning
(PETL) method to effectively and efficiently transfer visual-language knowledge
from the natural domain to the RS domain on the image-text retrieval task. To
this end, we make the following contributions. 1) We construct a novel and
sophisticated PETL framework for the RS image-text retrieval (RSITR) task,
which includes the pretrained CLIP model, a multimodal remote sensing adapter,
and a hybrid multi-modal contrastive (HMMC) learning objective; 2) To deal with
the problem of high intra-modal similarity in RS data, we design a simple yet
effective HMMC loss; 3) We provide comprehensive empirical studies for
PETL-based RS image-text retrieval. Our results demonstrate that the proposed
method is promising and of great potential for practical applications. 4) We
benchmark extensive state-of-the-art PETL methods on the RSITR task. Our
proposed model only contains 0.16M training parameters, which can achieve a
parameter reduction of 98.9% compared to full fine-tuning, resulting in
substantial savings in training costs. Our retrieval performance exceeds
traditional methods by 7-13% and achieves comparable or better performance than
full fine-tuning. This work can provide new ideas and useful insights for RS
vision-language tasks.
- Abstract(参考訳): 視覚・言語事前学習(vlp)モデルは最近人気が高まっている。
特定のデータセットを微調整することで、様々なタスクで大幅なパフォーマンス改善が観測されている。
しかしながら、VLPモデルの完全な微調整は、大量の計算資源を消費するだけでなく、環境への影響も大きい。
さらに、リモートセンシング(RS)データが常に更新されているため、フル微調整は現実世界のアプリケーションには実用的ではないかもしれない。
本稿では,画像検索タスクにおいて,自然領域からrsドメインへ視覚的言語知識を効果的かつ効率的に転送するためのパラメータ効率の高い転送学習(petl)手法について検討する。
この目的のために、以下の貢献を行う。
1)プレトレーニングされたCLIPモデル,マルチモーダルリモートセンシングアダプタ,ハイブリッドマルチモーダルコントラスト(HMMC)学習目的を含む,RS画像テキスト検索(RSITR)タスクのための,新規で洗練されたPETLフレームワークを構築した。
2)RSデータにおける高モード内類似性の問題に対処するため,単純で効果的なHMMC損失を設計する。
3) petlベースのrs画像テキスト検索のための包括的実証研究を行う。
本研究は,提案手法が有望であり,実用的な応用の可能性を示すものである。
4) RSITRタスク上でのPETL手法の広範な評価を行った。
提案モデルではトレーニングパラメータが0.16万であり, 完全微調整に比べて98.9%のパラメータ削減が可能であり, トレーニングコストを大幅に削減できる。
検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を示した。
この作業は、視覚言語タスクのための新しいアイデアと有用な洞察を提供する。
関連論文リスト
- MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。
既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。
本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。
MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文 参考訳(メタデータ) (2024-09-20T16:12:26Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。
PEFT(Efficient Fine-Tuning)技術。
提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2024-05-07T08:50:25Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。