論文の概要: Few-Shot Adaptation Benchmark for Remote Sensing Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.07135v1
- Date: Wed, 08 Oct 2025 15:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.597404
- Title: Few-Shot Adaptation Benchmark for Remote Sensing Vision-Language Models
- Title(参考訳): リモートセンシングビジョンランゲージモデルのためのFew-Shot Adaptation Benchmark
- Authors: Karim El Khoury, Maxime Zanella, Christophe De Vleeschouwer, Benoit Macq,
- Abstract要約: RSVLM 上での少数ショット適応手法を評価するための最初の構造化ベンチマークを示す。
リモートセンシングシーン分類データセット10種を対象に,包括的実験を行った。
以上の結果から, ゼロショット性能が類似したモデルでは, 少数ショット適応下では, 明らかに異なる挙動を示すことが判明した。
- 参考スコア(独自算出の注目度): 20.81142541450895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote Sensing Vision-Language Models (RSVLMs) have shown remarkable potential thanks to large-scale pretraining, achieving strong zero-shot performance on various tasks. However, their ability to generalize in low-data regimes, such as few-shot learning, remains insufficiently explored. In this work, we present the first structured benchmark for evaluating few-shot adaptation methods on RSVLMs. We conduct comprehensive experiments across ten remote sensing scene classification datasets, applying five widely used few-shot adaptation strategies to three state-of-the-art RSVLMs with varying backbones. Our findings reveal that models with similar zero-shot performance can exhibit markedly different behavior under few-shot adaptation, with some RSVLMs being inherently more amenable to such adaptation than others. The variability of performance and the absence of a clear winner among existing methods highlight the need for the development of more robust methods for few-shot adaptation tailored to RS. To facilitate future research, we provide a reproducible benchmarking framework and open-source code to systematically evaluate RSVLMs under few-shot conditions. The source code is publicly available on Github: https://github.com/elkhouryk/fewshot_RSVLMs
- Abstract(参考訳): リモートセンシングビジョンランゲージモデル(RSVLM)は、大規模な事前訓練により、様々なタスクにおいて強力なゼロショット性能を達成している。
しかし、少数ショット学習のような低データ体制で一般化する能力はいまだに不十分である。
本研究では,RSVLM上での少数ショット適応手法を評価するための最初の構造化ベンチマークを示す。
我々は10のリモートセンシングシーン分類データセットに対して総合的な実験を行い、様々なバックボーンを持つ3つの最先端のRSVLMに5つの広範に使われているショット適応戦略を適用した。
以上の結果から,類似のゼロショット性能を持つモデルは,少数ショット適応下では著しく異なる挙動を示し,一部のRSVLMは本質的に他のモデルよりも順応性が高いことが明らかとなった。
既存手法における性能の多様性と明確な勝者の欠如は、RSに適合した少数ショット適応のためのより堅牢な手法の開発の必要性を浮き彫りにしている。
今後の研究を容易にするために、再現性のあるベンチマークフレームワークとオープンソースのコードを提供し、数ショット条件下でRSVLMを体系的に評価する。
ソースコードはGithubで公開されている。 https://github.com/elkhouryk/fewshot_RSVLMs
関連論文リスト
- Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Realistic Test-Time Adaptation of Vision-Language Models [23.972884634610413]
VLM(Vision-Language Models)は、予測性能を改善するために広く活用されている。
トランスダクティブまたはテストタイム適応(TTA)に関する以前の研究は、しばしばデータ分布について強い仮定を下す。
私たちの作業は、これらの好ましいデプロイメントシナリオに挑戦し、より現実的な評価フレームワークを導入します。
論文 参考訳(メタデータ) (2025-01-07T12:17:25Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。