論文の概要: PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for
Infrared Images
- arxiv url: http://arxiv.org/abs/2312.08192v1
- Date: Wed, 13 Dec 2023 14:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:13:09.321472
- Title: PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for
Infrared Images
- Title(参考訳): PAD:赤外線画像用パッチワイド適応器による自己監督型事前訓練
- Authors: Tao Zhang, Kun Ding, Jinyong Wen, Yu Xiong, Zeyu Zhang, Shiming Xiang,
Chunhong Pan
- Abstract要約: RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLの研究は限られている。
一般的な事前トレーニングタスクを描画する非非同期赤外線画像は、効果が低い。
きめ細かいテクスチャの不足は、一般的な画像の特徴を学ぶのを特に困難にしている。
- 参考スコア(独自算出の注目度): 45.507517332100804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) for RGB images has achieved significant
success, yet there is still limited research on SSL for infrared images,
primarily due to three prominent challenges: 1) the lack of a suitable
large-scale infrared pre-training dataset, 2) the distinctiveness of non-iconic
infrared images rendering common pre-training tasks like masked image modeling
(MIM) less effective, and 3) the scarcity of fine-grained textures making it
particularly challenging to learn general image features. To address these
issues, we construct a Multi-Scene Infrared Pre-training (MSIP) dataset
comprising 178,756 images, and introduce object-sensitive random RoI cropping,
an image preprocessing method, to tackle the challenge posed by non-iconic
images. To alleviate the impact of weak textures on feature learning, we
propose a pre-training paradigm called Pre-training with ADapter (PAD), which
uses adapters to learn domain-specific features while freezing parameters
pre-trained on ImageNet to retain the general feature extraction capability.
This new paradigm is applicable to any transformer-based SSL method.
Furthermore, to achieve more flexible coordination between pre-trained and
newly-learned features in different layers and patches, a patchwise-scale
adapter with dynamically learnable scale factors is introduced. Extensive
experiments on three downstream tasks show that PAD, with only 1.23M
pre-trainable parameters, outperforms other baseline paradigms including
continual full pre-training on MSIP. Our code and dataset are available at
https://github.com/casiatao/PAD.
- Abstract(参考訳): RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLに関する研究は依然として限られている。
1) 適切な大規模赤外線前訓練データセットの欠如。
2)マスク画像モデリング(mim)などの一般的な事前学習課題を再現する非超音速赤外線画像の識別性,及び
3) きめ細かいテクスチャの不足は, 一般画像の特徴の学習を特に困難にしている。
これらの問題に対処するために,178,756枚の画像からなる多段階赤外線前訓練(msip)データセットを構築し,画像前処理法である物体感性ランダムroiクロッピングを導入し,非音響画像による課題に取り組む。
そこで本研究では,imagenetで事前トレーニングされたパラメータを凍結しながら,アダプタを用いてドメイン固有の特徴を学習し,汎用的な特徴抽出能力を維持するプリトレーニングパラダイムであるpre-training with adapter (pad)を提案する。
この新しいパラダイムは、トランスフォーマーベースのSSLメソッドに適用できる。
さらに,事前学習された特徴と新たに学習した特徴を異なるレイヤやパッチでより柔軟に調整するために,動的に学習可能なスケールファクタを備えたパッチワイズスケールアダプタを導入する。
3つの下流タスクに関する大規模な実験では、PADは1.23万の事前トレーニング可能なパラメータしか持たず、MSIP上での完全な事前トレーニングを含む他のベースラインパラダイムよりも優れていた。
私たちのコードとデータセットはhttps://github.com/casiatao/padで利用可能です。
関連論文リスト
- PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for Pansharpening [8.916207546866048]
本研究では,パンシャーピングタスクにおける小規模データセットの問題を軽減するため,効率的な微調整手法であるパンアダプタを提案する。
事前学習したCNNモデルを微調整し、提案したLPEモジュールにより2つのスケールでタスク固有の先行情報を抽出する。
提案手法は,事前学習した画像復元モデルの利点を生かし,いくつかのベンチマークパンシャーピングデータセットで最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-11T03:13:08Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation [8.840744039764092]
本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。
まず、ポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。
第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。
論文 参考訳(メタデータ) (2024-03-12T18:36:59Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Noise Self-Regression: A New Learning Paradigm to Enhance Low-Light Images Without Task-Related Data [86.68013790656762]
タスク関連のデータにアクセスせずにノイズ自己回帰(NoiSER)を提案する。
NoiSERは品質向上に非常に競争力があるが、モデルのサイズははるかに小さく、トレーニングや推論のコストもはるかに低い。
論文 参考訳(メタデータ) (2022-11-09T06:18:18Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Remote Sensing Image Scene Classification with Self-Supervised Paradigm
under Limited Labeled Samples [11.025191332244919]
我々は,大規模なラベル付きデータからRSIシーン分類のための高性能事前学習モデルを得るために,新たな自己教師付き学習(SSL)機構を導入する。
一般的な3つのRSIシーン分類データセットの実験により、この新たな学習パラダイムは、従来の支配的なImageNet事前学習モデルよりも優れていることが示された。
我々の研究から得られた知見は、リモートセンシングコミュニティにおけるSSLの発展を促進するのに役立ちます。
論文 参考訳(メタデータ) (2020-10-02T09:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。