論文の概要: Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.13993v1
- Date: Wed, 15 Oct 2025 18:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.575658
- Title: Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models
- Title(参考訳): リモートセンシングにおける効率的なFew-Shot学習--Fusing VisionとVision-Language Model
- Authors: Jia Yun Chua, Argyrios Zolotas, Miguel Arana-Catania,
- Abstract要約: 本研究では,視覚モデルと視覚言語モデルを組み合わせることで,リモートセンシングにおける画像解析の強化を図る。
YOLOとLLaVA、ChatGPT、GeminiといったVLMとの統合は、より正確で文脈的に認識された画像解釈を実現することを目的としている。
その結果、航空機の検出とカウントの精度において、モデル全体で平均48.46%のMAE改善が見られた。
- 参考スコア(独自算出の注目度): 0.33985395340995606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing has become a vital tool across sectors such as urban planning, environmental monitoring, and disaster response. While the volume of data generated has increased significantly, traditional vision models are often constrained by the requirement for extensive domain-specific labelled data and their limited ability to understand the context within complex environments. Vision Language Models offer a complementary approach by integrating visual and textual data; however, their application to remote sensing remains underexplored, particularly given their generalist nature. This work investigates the combination of vision models and VLMs to enhance image analysis in remote sensing, with a focus on aircraft detection and scene understanding. The integration of YOLO with VLMs such as LLaVA, ChatGPT, and Gemini aims to achieve more accurate and contextually aware image interpretation. Performance is evaluated on both labelled and unlabelled remote sensing data, as well as degraded image scenarios which are crucial for remote sensing. The findings show an average MAE improvement of 48.46% across models in the accuracy of aircraft detection and counting, especially in challenging conditions, in both raw and degraded scenarios. A 6.17% improvement in CLIPScore for comprehensive understanding of remote sensing images is obtained. The proposed approach combining traditional vision models and VLMs paves the way for more advanced and efficient remote sensing image analysis, especially in few-shot learning scenarios.
- Abstract(参考訳): リモートセンシングは、都市計画、環境モニタリング、災害対応などの分野において重要なツールとなっている。
生成されたデータの量は大幅に増加したが、従来のビジョンモデルは、広範囲のドメイン固有のラベル付きデータと、複雑な環境におけるコンテキストを理解する能力の制限によって制約されることが多い。
視覚言語モデル(Vision Language Models)は、視覚的およびテキスト的データを統合することで補完的なアプローチを提供するが、リモートセンシングへの応用は、特に一般論的な性質から、未検討のままである。
本研究は,遠隔センシングにおける画像解析の強化を目的とした視覚モデルとVLMの組み合わせについて検討し,航空機検出とシーン理解に焦点を当てた。
YOLOとLLaVA、ChatGPT、GeminiといったVLMとの統合は、より正確で文脈的に認識された画像解釈を実現することを目的としている。
ラベル付きおよび非ラベル付きリモートセンシングデータと、リモートセンシングに不可欠な劣化画像シナリオの両方で性能を評価する。
この結果は、航空機の検知とカウントの精度、特に難易度において、生のシナリオと劣化シナリオの両方において平均48.46%のMAE改善を示す。
リモートセンシング画像の包括的理解のためのCLIPScoreの6.17%の改善が得られた。
従来の視覚モデルとVLMを組み合わせるアプローチは、特に数ショットの学習シナリオにおいて、より高度で効率的なリモートセンシング画像解析の道を開く。
関連論文リスト
- Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。
リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。
リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T08:02:54Z) - From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。
我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。
シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文 参考訳(メタデータ) (2024-11-05T12:14:22Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。