論文の概要: Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification
- arxiv url: http://arxiv.org/abs/2403.08271v2
- Date: Fri, 29 Nov 2024 03:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:34.543657
- Title: Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification
- Title(参考訳): 微粒化船種分類のための大型視界言語モデルの効率的なプロンプトチューニング
- Authors: Long Lan, Fengxiang Wang, Xiangtao Zheng, Zengmao Wang, Xinwang Liu,
- Abstract要約: リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
- 参考スコア(独自算出の注目度): 59.99976102069976
- License:
- Abstract: Fine-grained ship classification in remote sensing (RS-FGSC) poses a significant challenge due to the high similarity between classes and the limited availability of labeled data, limiting the effectiveness of traditional supervised classification methods. Recent advancements in large pre-trained Vision-Language Models (VLMs) have demonstrated impressive capabilities in few-shot or zero-shot learning, particularly in understanding image content. This study delves into harnessing the potential of VLMs to enhance classification accuracy for unseen ship categories, which holds considerable significance in scenarios with restricted data due to cost or privacy constraints. Directly fine-tuning VLMs for RS-FGSC often encounters the challenge of overfitting the seen classes, resulting in suboptimal generalization to unseen classes, which highlights the difficulty in differentiating complex backgrounds and capturing distinct ship features. To address these issues, we introduce a novel prompt tuning technique that employs a hierarchical, multi-granularity prompt design. Our approach integrates remote sensing ship priors through bias terms, learned from a small trainable network. This strategy enhances the model's generalization capabilities while improving its ability to discern intricate backgrounds and learn discriminative ship features. Furthermore, we contribute to the field by introducing a comprehensive dataset, FGSCM-52, significantly expanding existing datasets with more extensive data and detailed annotations for less common ship classes. Extensive experimental evaluations demonstrate the superiority of our proposed method over current state-of-the-art techniques. The source code will be made publicly available.
- Abstract(参考訳): リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの可用性の制限により、従来の教師付き分類手法の有効性が制限されるため、大きな課題となる。
大規模な事前学習型視覚言語モデル(VLM)の最近の進歩は、特に画像内容の理解において、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は、VLMの可能性を生かして、未確認の船舶カテゴリの分類精度を高めることを目的としている。
RS-FGSCを直接微調整するVLMは、目に見えないクラスに最適化され、複雑な背景を識別し、異なる船の特徴を捉えるのが困難である。
これらの課題に対処するために,階層的,多粒度なプロンプト設計を用いた新しいプロンプトチューニング手法を提案する。
我々のアプローチは、小さなトレーニング可能なネットワークから学んだバイアス条件によって、リモートセンシング船の事前情報を統合します。
この戦略は、複雑な背景を識別し、識別可能な船の特徴を学習する能力を改善しながら、モデルの一般化能力を高める。
さらに,FGSCM-52という包括的データセットを導入し,より広範なデータとより一般的な船舶クラスに対する詳細なアノテーションで既存のデータセットを大幅に拡張することで,この分野に貢献する。
大規模実験により,提案手法が現状技術よりも優れていることを示す。
ソースコードは一般公開される予定だ。
関連論文リスト
- OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning [57.43911113915546]
FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。
FSCILの手法は、データが漸進的に到着するにつれて、破滅的な忘れ込みの課題に直面している。
表現空間における特徴の直交性と対照的な学習という2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:30:48Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - 2nd Place Solution for ICCV 2021 VIPriors Image Classification
Challenge: An Attract-and-Repulse Learning Approach [41.346232387426944]
畳み込みニューラルネットワーク(CNN)は、大規模なデータセットを利用することで、画像分類において大きな成功を収めた。
特徴表現を豊かにするContrastive Regularization(CR)と、異なるクラスに対する適合性のバランスをとるSymmetric Cross Entropy(SCE)からなるAttract-and-Repulseを提案する。
具体的には、SCEとCRは、クラス(トラクション)とインスタンス(リパルス)の情報間の適応的トレードオフによる過度な適合を緩和しながら、識別表現を学習する。
論文 参考訳(メタデータ) (2022-06-13T13:54:33Z) - Task-Oriented Image Transmission for Scene Classification in Unmanned
Aerial Systems [46.64800170644672]
シーン分類作業のための新しい航空画像伝送パラダイムを提案する。
画像やチャネル条件の認識を伴うセマンティックブロック伝送のための,フロントエンドUAV上での軽量モデルを開発した。
伝送遅延と分類精度のトレードオフを達成するために、深層強化学習を用いる。
論文 参考訳(メタデータ) (2021-12-21T02:44:49Z) - Self-supervised learning for joint SAR and multispectral land cover
classification [38.8529535887097]
マルチチャネルモデルの自己教師型トレーニングのためのフレームワークと特定のタスクを提案する。
提案手法は,土地被覆分類のラベルと相関する特徴の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-08-20T09:02:07Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。