論文の概要: Rethinking Electro-Optical Vision Foundation Models for Remote Sensing Retrieval: A Controlled Comparison with Generalist VFM
- arxiv url: http://arxiv.org/abs/2605.02283v1
- Date: Mon, 04 May 2026 07:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.171526
- Title: Rethinking Electro-Optical Vision Foundation Models for Remote Sensing Retrieval: A Controlled Comparison with Generalist VFM
- Title(参考訳): リモートセンシング検索のための電気光学基礎モデルの再考:一般VFMとの比較
- Authors: Hyobin Park, Minseok Seo, Dong-Geol Choi,
- Abstract要約: 視覚基盤モデルは、大規模にラベル付けされていない視覚データを活用する能力において大きな注目を集めている。
近年の電気光学基盤モデルは、リモートセンシング画像からドメイン固有の表現を学習することを目的としている。
検索に基づく評価では、強い一般化的ビジョン基礎モデルよりも効果的かどうかは不明である。
- 参考スコア(独自算出の注目度): 7.734759516415116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models have attracted significant attention for their ability to leverage large-scale unlabeled visual data. This advantage is particularly important in remote sensing, where data acquisition is costly and annotation often requires expert knowledge. Recent electro-optical vision foundation models aim to learn domain-specific representations from remote sensing imagery, but it remains unclear whether they are more effective than strong generalist vision foundation models under retrieval-based evaluation. In this study, we conduct a controlled comparison between representative EO-specific and generalist vision foundation models for remote sensing image retrieval. Using the same datasets, retrieval protocol, and evaluation metric, we evaluate both in-domain performance and cross-scene generalization. Our results show that strong generalist vision foundation models are competitive with, and in some cases outperform, existing EO-specific models. Moreover, EO-specific models often suffer from substantial degradation under cross-scene evaluation, while generalist models show more stable transfer. These findings suggest that EO pretraining alone does not guarantee stronger retrieval-oriented remote sensing representations. We discuss the limitations of current EO-specific pretraining strategies and highlight the need for future EO vision foundation models to better exploit the physical, spatial, spectral, and geographic characteristics of remote sensing imagery.
- Abstract(参考訳): 視覚基盤モデルは、大規模にラベル付けされていない視覚データを活用する能力において大きな注目を集めている。
この利点は、データ取得にコストがかかり、しばしば専門家の知識を必要とするリモートセンシングにおいて特に重要である。
近年の電気光学的視覚基盤モデルは,リモートセンシング画像からドメイン固有表現を学習することを目的としている。
本研究では,リモートセンシング画像検索のための代表的EO固有モデルと汎用的視覚基盤モデルとの制御された比較を行う。
同じデータセット、検索プロトコル、評価基準を用いて、ドメイン内のパフォーマンスとクロスシーンの一般化の両方を評価する。
以上の結果から,強力な一般化的ビジョン基盤モデルは,既存のEO固有のモデルよりも優れており,性能が優れていることが示唆された。
さらに、EO特有のモデルでは、クロスシーン評価の下で大幅に劣化することが多いが、ジェネラリストモデルはより安定な転移を示す。
これらの結果から,EO事前学習だけではより強力な検索指向リモートセンシング表現が保証されないことが示唆された。
遠隔センシング画像の物理的,空間的,スペクトル的,地理的特性をよりよく活用するために,現在のEO固有の事前訓練戦略の限界について議論し,将来のEOビジョン基盤モデルの必要性を強調した。
関連論文リスト
- Benchmarking Vision Foundation Models for Domain-Generalizable Face Anti-Spoofing [2.099922236065961]
Face Anti-Spoofing (FAS) は、目に見えない環境にまたがる堅牢なドメインの一般化を必要とするため、依然として困難である。
本稿では、FASの高効率で堅牢なベースラインを確立するために、視覚のみの基礎モデルの可能性を再考する。
包括的分析により、自己監督型視覚モデル、特にDINOv2 with Registersは、注意要素を著しく抑制し、重要できめ細かなスプーフィングキューを捉えていることが明らかとなった。
論文 参考訳(メタデータ) (2026-04-21T08:05:21Z) - Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling [31.36539752384395]
クロスビューUAVジオローカライゼーションは、ドローンが捉えた画像の正確な空間座標を、地理的に参照された広範囲な衛星データベースと整列させることを目的としている。
改良されたUAV-Satellite画像マッチングのための共同関係モデリングを明示的に行うために設計された,新しいプラグアンドプレイランキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:29Z) - GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning [47.13305707860122]
多様な地球観測タスクへの推論に基づくRLモデルの効果的な適応を可能にするために,タスク意識報酬を取り入れた新しいポストトレーニングフレームワークを提案する。
このトレーニング戦略は、リモートセンシング画像の推論機能を強化し、最適化を安定化し、堅牢性を向上させる。
論文 参考訳(メタデータ) (2025-09-29T16:48:54Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。