論文の概要: Near-Infrared and Low-Rank Adaptation of Vision Transformers in Remote Sensing
- arxiv url: http://arxiv.org/abs/2405.17901v1
- Date: Tue, 28 May 2024 07:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:57:23.501850
- Title: Near-Infrared and Low-Rank Adaptation of Vision Transformers in Remote Sensing
- Title(参考訳): リモートセンシングにおける視覚変換器の近赤外・低域適応
- Authors: Irem Ulku, O. Ozgur Tanriover, Erdem Akagündüz,
- Abstract要約: 近赤外反射率(NIR)を測定するマルチスペクトルセンサを用いて植物の健康状態を動的に監視できる
このような可能性にもかかわらず、高解像度のNIR画像の取得と注釈付けは、ディープニューラルネットワークのトレーニングにおいて重要な課題となっている。
本研究では、RGB領域で事前訓練された視覚変換器(ViT)バックボーンの利点について検討し、NIR領域の下流タスクに対する低ランク適応について検討した。
- 参考スコア(独自算出の注目度): 3.2088888904556123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plant health can be monitored dynamically using multispectral sensors that measure Near-Infrared reflectance (NIR). Despite this potential, obtaining and annotating high-resolution NIR images poses a significant challenge for training deep neural networks. Typically, large networks pre-trained on the RGB domain are utilized to fine-tune infrared images. This practice introduces a domain shift issue because of the differing visual traits between RGB and NIR images.As an alternative to fine-tuning, a method called low-rank adaptation (LoRA) enables more efficient training by optimizing rank-decomposition matrices while keeping the original network weights frozen. However, existing parameter-efficient adaptation strategies for remote sensing images focus on RGB images and overlook domain shift issues in the NIR domain. Therefore, this study investigates the potential benefits of using vision transformer (ViT) backbones pre-trained in the RGB domain, with low-rank adaptation for downstream tasks in the NIR domain. Extensive experiments demonstrate that employing LoRA with pre-trained ViT backbones yields the best performance for downstream tasks applied to NIR images.
- Abstract(参考訳): 植物の健康状態は、近赤外線反射率(NIR)を測定するマルチスペクトルセンサーを用いて動的に監視することができる。
このような可能性にもかかわらず、高解像度のNIR画像の取得と注釈付けは、ディープニューラルネットワークのトレーニングにおいて重要な課題となっている。
通常、RGBドメインで事前トレーニングされた大きなネットワークは、赤外線画像の微調整に利用される。
本手法では,RGB と NIR 画像の視覚特性が異なるため,領域シフトの問題が発生するが,ローランク適応 (LoRA) と呼ばれる手法は,元のネットワーク重みを凍結させながらランク分解行列を最適化することにより,より効率的なトレーニングを可能にする。
しかし、リモートセンシング画像に対する既存のパラメータ効率適応戦略は、RGB画像とNIR領域におけるドメインシフト問題に重点を置いている。
そこで本研究では,RGB領域で事前学習した視覚トランスフォーマー(ViT)バックボーンを,NIR領域の下流タスクに低ランク適応させることのメリットについて検討した。
広汎な実験により、トレーニング済みのViTバックボーンにLoRAを用いることで、NIR画像に適用された下流タスクに最高のパフォーマンスが得られることが示されている。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる新しいMambaスキャニング機構を提案する。
また,Retinex の先行したRetinex Decomposition Module (RDM) も提案する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Towards RGB-NIR Cross-modality Image Registration and Beyond [21.475871648254564]
本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に着目した。
まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを示す。
次に、可視画像と赤外線画像の非一貫性な局所的特徴がモデル性能に与える影響を明らかにするために、いくつかの指標を設計する。
論文 参考訳(メタデータ) (2024-05-30T10:25:50Z) - Multi-scale Progressive Feature Embedding for Accurate NIR-to-RGB
Spectral Domain Translation [6.580484964018551]
我々は、NIRソース画像をグレースケールターゲットドメインに変換するドメイン翻訳モジュールを導入する。
プログレッシブトレーニング戦略を取り入れることで、両方のタスク領域からの統計的および意味的な知識を効率的に整合させる。
実験により、我々のMPFNetはNIR-to-RGBスペクトル領域変換タスクにおいて最先端の2.55dBより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-26T13:07:45Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Infrared Image Super-Resolution via Heterogeneous Convolutional WGAN [4.6667021835430145]
我々は、ヘテロジニアスカーネルベースの超解像ワッサースタインGAN(HetSRWGAN)をIR画像の超解像に用いるフレームワークを提案する。
HetSRWGANは定性評価と定量的評価の両方において一貫して優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-09-02T14:01:05Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - Generation of the NIR spectral Band for Satellite Images with
Convolutional Neural Networks [0.0]
ディープニューラルネットワークは、画像の着色問題など、人工的なスペクトル情報を生成することができる。
我々は,高解像度衛星画像のRGBチャネルのみを用いて,NIR帯域生成作業におけるGAN(Generative Adversarial Network)アプローチについて検討した。
論文 参考訳(メタデータ) (2021-06-13T15:14:57Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。