論文の概要: GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning
- arxiv url: http://arxiv.org/abs/2603.09566v1
- Date: Tue, 10 Mar 2026 12:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.275667
- Title: GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning
- Title(参考訳): GeoAlignCLIP:マルチグラニュラー一貫性学習による遠隔センシングにおける微視的視線調整の促進
- Authors: Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang,
- Abstract要約: 視覚言語事前学習モデルは、自然言語によるリモートセンシング画像のブリッジにおいて大きな進歩を遂げている。
リモートセンシングタスクにおける微粒なアライメントを実現する統合フレームワークGeoAlignCLIPを提案する。
RSFG-100kはシーン記述、地域レベルのアノテーション、難易度の高いサンプルを含む微粒なリモートセンシングデータセットである。
- 参考スコア(独自算出の注目度): 8.819428500071007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pretraining models have made significant progress in bridging remote sensing imagery with natural language. However, existing approaches often fail to effectively integrate multi-granular visual and textual information, relying primarily on global image-text alignment. This limitation hinders the model's ability to accurately capture fine-grained details in images, thus restricting its performance in complex, fine-grained tasks. To address this, we propose GeoAlignCLIP, a unified framework that achieves fine-grained alignment in remote sensing tasks by learning multi-granular semantic alignments and incorporating intra-modal consistency, enabling more precise visual-semantic alignment between image regions and text concepts. Additionally, we construct RSFG-100k, a fine-granular remote sensing dataset containing scene descriptions, region-level annotations, and challenging hard-negative samples, providing hierarchical supervision for model training. Extensive experiments conducted on multiple public remote-sensing benchmarks demonstrate that GeoAlignCLIP consistently outperforms existing RS-specific methods across diverse tasks, exhibiting more robust and accurate fine-grained vision-language alignment.
- Abstract(参考訳): 視覚言語事前学習モデルは、自然言語によるリモートセンシング画像のブリッジにおいて大きな進歩を遂げている。
しかし、既存のアプローチは、主にグローバルな画像テキストアライメントに依存するため、多言語的な視覚情報やテキスト情報を効果的に統合することができないことが多い。
この制限は、モデルが画像のきめ細かい詳細を正確にキャプチャする能力を妨げ、複雑なきめ細かいタスクのパフォーマンスを制限する。
そこで本稿では,マルチグラニュラーなセマンティックアライメントを学習し,モーダル内一貫性を取り入れ,画像領域とテキスト概念間のより正確な視覚的セマンティックアライメントを実現することにより,リモートセンシングタスクのきめ細かいアライメントを実現する統合フレームワークGeoAlignCLIPを提案する。
さらに、シーン記述、地域レベルのアノテーション、難易度の高いサンプルを含む細粒度リモートセンシングデータセットであるRCFG-100kを構築し、モデルトレーニングの階層的監視を提供する。
複数の公的なリモートセンシングベンチマークで実施された大規模な実験は、GeoAlignCLIPが既存のRS固有の手法を様々なタスクで一貫して上回り、より堅牢で正確な視覚言語アライメントを示すことを示した。
関連論文リスト
- Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。
GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。
複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文 参考訳(メタデータ) (2026-01-23T10:12:59Z) - SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。
提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-04T02:28:51Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。