論文の概要: RingMo-Aerial: An Aerial Remote Sensing Foundation Model With A Affine Transformation Contrastive Learning
- arxiv url: http://arxiv.org/abs/2409.13366v1
- Date: Fri, 20 Sep 2024 10:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:28:56.488343
- Title: RingMo-Aerial: An Aerial Remote Sensing Foundation Model With A Affine Transformation Contrastive Learning
- Title(参考訳): RingMo-Aerial:アフィン変換コントラスト学習を用いた空中リモートセンシング基礎モデル
- Authors: Wenhui Diao, Haichen Yu, Kaiyue Kang, Tong Ling, Di Liu, Yingchao Feng, Hanbo Bi, Libo Ren, Xuexue Li, Yongqiang Mao, Xian Sun,
- Abstract要約: 本稿では,ARSビジョンの分野における基礎モデル研究のギャップを埋めることを目的としたRingMo-Aerialモデルを提案する。
小型目標に対するモデルの検出能力を向上し、ARSの特徴となる傾いた視角に最適化する。
実験により、RingMo-Aerialは複数の下流タスクにおいてSOTA性能を達成することを示した。
- 参考スコア(独自算出の注目度): 12.442430013205131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial Remote Sensing (ARS) vision tasks pose significant challenges due to the unique characteristics of their viewing angles. Existing research has primarily focused on algorithms for specific tasks, which have limited applicability in a broad range of ARS vision applications. This paper proposes the RingMo-Aerial model, aiming to fill the gap in foundation model research in the field of ARS vision. By introducing the Frequency-Enhanced Multi-Head Self-Attention (FE-MSA) mechanism and an affine transformation-based contrastive learning pre-training method, the model's detection capability for small targets is enhanced and optimized for the tilted viewing angles characteristic of ARS. Furthermore, the ARS-Adapter, an efficient parameter fine-tuning method, is proposed to improve the model's adaptability and effectiveness in various ARS vision tasks. Experimental results demonstrate that RingMo-Aerial achieves SOTA performance on multiple downstream tasks. This indicates the practicality and effectiveness of RingMo-Aerial in enhancing the performance of ARS vision tasks.
- Abstract(参考訳): 空中リモートセンシング(ARS)の視覚タスクは、視角の独特の特徴のために大きな課題を生んでいる。
既存の研究は主に特定のタスクのアルゴリズムに焦点を当てており、幅広いARSビジョンアプリケーションに適用性に制限がある。
本稿では,ARSビジョンの分野における基礎モデル研究のギャップを埋めることを目的としたRingMo-Aerialモデルを提案する。
周波数強化型マルチヘッド・セルフアテンション(FE-MSA)機構とアフィン変換に基づくコントラスト学習事前学習手法を導入することにより、小型目標に対するモデルの検出能力を向上し、ARSの特徴となる傾いた視野角に最適化する。
さらに,ARS-Adapterは,様々なARSビジョンタスクにおけるモデルの適応性と有効性を改善するために,効率的なパラメータ調整手法である。
実験により、RingMo-Aerialは複数の下流タスクにおいてSOTA性能を達成することを示した。
このことは、ARS視覚タスクの性能向上におけるRingMo-Aerialの実用性と有効性を示している。
関連論文リスト
- Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - LEAP:D - A Novel Prompt-based Approach for Domain-Generalized Aerial Object Detection [2.1233286062376497]
学習可能なプロンプトを用いた革新的な視覚言語アプローチを提案する。
この手動プロンプトからのシフトは、ドメイン固有の知識干渉を減らすことを目的としている。
トレーニングプロセスを一段階のアプローチで合理化し、学習可能なプロンプトとモデルトレーニングを同時に更新する。
論文 参考訳(メタデータ) (2024-11-14T04:39:10Z) - Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision
Transformers [61.48709409150777]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
本稿では,学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRA-ATフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Adapting Segment Anything Model for Change Detection in HR Remote
Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文 参考訳(メタデータ) (2023-09-04T08:23:31Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Object Detection in Aerial Images: What Improves the Accuracy? [9.857292888257144]
空中画像における物体検出問題に対して,ディープラーニングに基づく物体検出手法が積極的に研究されている。
本研究では,空中物体検出におけるFaster R-CNNの影響について検討し,航空画像の性能向上のための数多くの戦略を探求する。
論文 参考訳(メタデータ) (2022-01-21T16:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。