論文の概要: Efficient Adaptation For Remote Sensing Visual Grounding
- arxiv url: http://arxiv.org/abs/2503.23083v1
- Date: Sat, 29 Mar 2025 13:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:59.424498
- Title: Efficient Adaptation For Remote Sensing Visual Grounding
- Title(参考訳): リモートセンシング視覚接地のための効率的な適応法
- Authors: Hasan Moughnieh, Mohamad Chalhoub, Hasan Nasrallah, Cristiano Nattero, Paolo Campanella, Ali J. Ghandour,
- Abstract要約: 基礎モデルは、Visual Grounding (VG)タスクを通じてテキスト記述とオブジェクト位置を関連付けることができる。
ドメイン固有の課題のため、リモートセンシング(RS)への直接適用は、準最適結果をもたらす。
本研究は,PEFTによるRSの効率的かつ高精度なマルチモーダル解析の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Foundation models have revolutionized artificial intelligence (AI), offering remarkable capabilities across multi-modal domains. Their ability to precisely locate objects in complex aerial and satellite images, using rich contextual information and detailed object descriptions, is essential for remote sensing (RS). These models can associate textual descriptions with object positions through the Visual Grounding (VG) task, but due to domain-specific challenges, their direct application to RS produces sub-optimal results. To address this, we applied Parameter Efficient Fine Tuning (PEFT) techniques to adapt these models for RS-specific VG tasks. Specifically, we evaluated LoRA placement across different modules in Grounding DINO and used BitFit and adapters to fine-tune the OFA foundation model pre-trained on general-purpose VG datasets. This approach achieved performance comparable to or surpassing current State Of The Art (SOTA) models while significantly reducing computational costs. This study highlights the potential of PEFT techniques to advance efficient and precise multi-modal analysis in RS, offering a practical and cost-effective alternative to full model training.
- Abstract(参考訳): ファウンデーションモデルは人工知能(AI)に革命をもたらし、マルチモーダルドメインにまたがる優れた機能を提供する。
複雑な空中・衛星画像中の物体を正確に検出する能力は、リッチなコンテキスト情報と詳細なオブジェクト記述を用いて、リモートセンシング(RS)に不可欠である。
これらのモデルは、Visual Grounding (VG)タスクを通じてテキスト記述とオブジェクトの位置を関連付けることができるが、ドメイン固有の課題のため、RSへの直接適用は準最適結果を生成する。
そこで本研究では,パラメータ・エフェクト・ファイン・チューニング(PEFT)技術を用いて,これらのモデルをRS固有のVGタスクに適用した。
具体的には、Grounding DINOの異なるモジュール間のLoRA配置を評価し、BitFitとアダプタを使用して汎用VGデータセットで事前トレーニングされたOFA基盤モデルを微調整した。
このアプローチは、現在の最先端技術(SOTA)モデルに匹敵する性能を達成し、計算コストを大幅に削減した。
本研究は,完全モデルトレーニングに代わる実用的で費用対効果の高い代替手段として,効率的なマルチモーダル解析をRSで進めるためのPEFT技術の可能性を強調した。
関連論文リスト
- Segmentation of arbitrary features in very high resolution remote sensing imagery [0.0]
我々は、VHR RS画像に任意の機能を分割するスケーラブルなソリューションであるEcoMapperを紹介した。
EcoMapperでトレーニングされたモデルは、現実のUAVデータセットで2つの異なる特徴をセグメント化することに成功している。
収集データにDL手法を効果的に適用するための総合的なフィールドサーベイ手法を開発した。
論文 参考訳(メタデータ) (2024-12-20T16:48:52Z) - RS-MoE: A Vision-Language Model with Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering [23.699493284403967]
本稿では,リモートセンシングに特化してカスタマイズされた,最初のMixture of ExpertベースのVLMであるRS-MoEを提案する。
従来のMoEモデルとは異なり、RS-MoEのコアとなるMoEブロックは、新しいインストラクションルータと複数の軽量言語モデル(LLM)をエキスパートモデルとして組み込んだものである。
本モデルでは, 精度, 文脈に関連のあるキャプションを生成する際に, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-03T15:05:49Z) - Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter-Efficient Transfer Learning for Remote Sensing Image-Text
Retrieval [10.84733740863356]
本研究では,画像テキスト検索タスクにおいて,自然領域から RS 領域に視覚言語知識を伝達するためのパラメータ効率変換学習(PETL)手法について検討する。
提案モデルでは0.16万のトレーニングパラメータしか含まないため,完全微調整に比べて98.9%のパラメータ削減が可能である。
検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を達成している。
論文 参考訳(メタデータ) (2023-08-24T02:43:53Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z) - Data Techniques For Online End-to-end Speech Recognition [17.621967685914587]
ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。
最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。
本稿では,オンラインASRシステムをエンド・ツー・エンドで構築するための簡単な実装手法について検討する。
論文 参考訳(メタデータ) (2020-01-24T22:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。