論文の概要: Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis
- arxiv url: http://arxiv.org/abs/2604.00820v1
- Date: Wed, 01 Apr 2026 12:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.984488
- Title: Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis
- Title(参考訳): リモートセンシングのための連続視覚言語学習:ベンチマークと分析
- Authors: Xingxing Weng, Ruifeng Ni, Chao Pang, XiangYu Hao, Yishan Wang, Xiaokang Zhang, Wei Xu, Gui-Song Xia,
- Abstract要約: リモートセンシングにおける連続的な視覚言語学習のためのベンチマークであるCLeaRSを提案する。
CLeaRSは、207k以上のイメージテキストペアを持つ10のキュレートされたサブセットで構成され、多様な解釈タスク、モダリティの検知、アプリケーションシナリオで構成されている。
多様な視覚言語モデルの大規模なベンチマークでは、すべての設定において破滅的な忘れが浮かび上がっている。
- 参考スコア(独自算出の注目度): 39.81956241706565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current remote sensing vision-language models (RS VLMs) demonstrate impressive performance in image interpretation but rely on static training data, limiting their ability to accommodate continuously emerging sensing modalities and downstream tasks. This exposes a fundamental challenge: enabling RS VLMs to continually adapt without catastrophic forgetting. Despite its practical importance, the continual learning capability of RS VLMs remains underexplored, and no dedicated benchmark currently exists. In this work, we present CLeaRS, a comprehensive benchmark for continual vision-language learning in remote sensing. CLeaRS comprises 10 curated subsets with over 207k image-text pairs, spanning diverse interpretation tasks, sensing modalities, and application scenarios. We further define three evaluation protocols: long-horizon, modality-incremental, and task-incremental settings, to systematically assess continual adaptation. Extensive benchmarking of diverse vision-language models reveals catastrophic forgetting across all settings. Moreover, representative continual learning methods, when adapted to RS VLMs, exhibit limited effectiveness in handling task, instruction, and modality transitions. Our findings underscore the need for developing continual learning methods tailored to RS VLMs.
- Abstract(参考訳): 現在のリモートセンシングビジョン言語モデル(RS VLM)は、画像解釈において印象的な性能を示すが、静的なトレーニングデータに依存しており、連続的に出現する知覚モダリティや下流タスクに対応する能力を制限する。
これは、RS VLMが破滅的な忘れをせずに継続的に適応できるようにするという根本的な課題を露呈する。
その実用的重要性にもかかわらず、RS VLMの継続的な学習能力は未定であり、まだ専用のベンチマークは存在していない。
本研究では,リモートセンシングにおける連続的な視覚言語学習のための総合的なベンチマークであるCLeaRSを提案する。
CLeaRSは、207k以上のイメージテキストペアを持つ10のキュレートされたサブセットで構成され、多様な解釈タスク、モダリティの検知、アプリケーションシナリオで構成されている。
さらに,連続的な適応を体系的に評価するための3つの評価プロトコル,長期化,モーダル化,タスク増分の設定を定義した。
多様な視覚言語モデルの大規模なベンチマークでは、すべての設定において破滅的な忘れが浮かび上がっている。
さらに、RS VLMに適応した代表的連続学習手法は、タスク、命令、モダリティ遷移の処理において限定的な効果を示す。
この結果から,RS VLMに適した連続学習手法の必要性が示唆された。
関連論文リスト
- EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。