論文の概要: OSM-based Domain Adaptation for Remote Sensing VLMs
- arxiv url: http://arxiv.org/abs/2603.11804v1
- Date: Thu, 12 Mar 2026 11:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.036132
- Title: OSM-based Domain Adaptation for Remote Sensing VLMs
- Title(参考訳): OSMを用いたリモートセンシングVLMのためのドメイン適応
- Authors: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: リモートセンシングに適応した視覚言語モデル(VLM)は、ドメイン固有の画像テキストの監視に大きく依存する。
我々は、この依存関係を排除した自己完結型ドメイン適応フレームワークOSMDAを提案する。
画像テキストからテキストまでのタスクで10のベンチマークを網羅的に評価する。
- 参考スコア(独自算出の注目度): 49.91326341200221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.
- Abstract(参考訳): リモートセンシングに適応した視覚言語モデル(VLM)は、ドメイン固有の画像テキストの監督に大きく依存するが、衛星や空中画像の高品質なアノテーションは少なく、製造コストも高い。
疑似ラベルパイプラインは,大規模なフロンティアモデルから知識を抽出することで,このギャップに対処するが,この大きな教師への依存はコストが高く,スケーラビリティを制限し,教師の天井で達成可能なパフォーマンスを達成できる。
我々は、この依存関係を排除した自己完結型ドメイン適応フレームワークOSMDAを提案する。
レンダリングされたOpenStreetMap (OSM) タイルと空中イメージをペアリングすることで、モデルの光学的文字認識とチャート理解機能を活用し、OSMの膨大な補助メタデータに富んだキャプションを生成する。
その後、モデルは衛星画像のみで得られたコーパスに微調整され、手動ラベリングや強力な外部モデルを必要としないドメイン適応型VLMであるOSMDA-VLMが得られる。
画像テキストとテキストのタスクにまたがる10のベンチマークを網羅的に評価し、9つの競合ベースラインと比較する。
実データと等しく混ざった場合,本手法は教師依存の学習方法よりもかなり安価で,最先端の学習結果が得られる。
これらの結果から,クラウドソースの地理的データとの整合性は,リモートセンシングドメイン適応への実践的かつスケーラブルな経路であることが示唆された。
データセットとモデルウェイトが公開されます。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [13.549403813487022]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付けされたソースドメインデータを活用しながら、ラベル付けされていないターゲットドメインデータからモデルを学習することを可能にする。
対照的な学習を UDA に統合し,対象領域における意味情報を捕捉するモデルの能力を高めることを提案する。
我々の手法であるSimSegは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。