論文の概要: Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2507.21745v1
- Date: Tue, 29 Jul 2025 12:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.249801
- Title: Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards
- Title(参考訳): 検証リワードによる衛星画像のFew-Shot Vision-Language Reasoning
- Authors: Aybora Koksal, A. Aydin Alatan,
- Abstract要約: 衛星画像に対する検証可能な報酬(RLVR)フレームワークを用いた最初の数発の強化学習を提案する。
我々は、衛星推論タスクのモデル出力の整合化のために、ポリシー段階の最適化を1つのキュレートされた例で導入する。
何千もの注釈付きサンプルで訓練されたモデルに一致または超える128のサンプルにスケールする。
- 参考スコア(独自算出の注目度): 7.14978158285611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language and vision-language models have enabled strong reasoning capabilities, yet they remain impractical for specialized domains like remote sensing, where annotated data is scarce and expensive. We present the first few-shot reinforcement learning with verifiable reward (RLVR) framework for satellite imagery that eliminates the need for caption supervision--relying solely on lightweight, rule-based binary or IoU-based rewards. Adapting the "1-shot RLVR" paradigm from language models to vision-language models, we employ policy-gradient optimization with as few as one curated example to align model outputs for satellite reasoning tasks. Comprehensive experiments across multiple remote sensing benchmarks--including classification, visual question answering, and grounding--show that even a single example yields substantial improvements over the base model. Scaling to 128 examples matches or exceeds models trained on thousands of annotated samples. While the extreme one-shot setting can induce mild, task-specific overfitting, our approach consistently demonstrates robust generalization and efficiency across diverse tasks. Further, we find that prompt design and loss weighting significantly influence training stability and final accuracy. Our method enables cost-effective and data-efficient development of domain-specialist vision-language reasoning models, offering a pragmatic recipe for data-scarce fields: start from a compact VLM, curate a handful of reward-checkable cases, and train via RLVR.
- Abstract(参考訳): 大規模言語や視覚言語モデルの最近の進歩は、強力な推論機能を実現しているが、アノテーション付きデータが不足し、高価であるリモートセンシングのような特殊なドメインでは実用的ではない。
衛星画像に対する検証可能な報酬(RLVR)フレームワークを,軽量なルールベースバイナリやIoUベースの報酬のみに限定して,キャプション監督の必要性を排除した最初の数発の強化学習を提案する。
言語モデルから視覚言語モデルへの"1ショットRLVR"パラダイムの適用により、衛星推論タスクのためのモデル出力の整合化のために、1つのキュレートされた例で、ポリシー段階の最適化を採用する。
複数のリモートセンシングベンチマーク(分類、視覚的質問応答、接地など)にわたる総合的な実験では、単一の例であってもベースモデルよりも大幅に改善されていることが示されている。
数千の注釈付きサンプルでトレーニングされたモデルに、128のサンプルが一致または超えます。
極端なワンショット設定は、軽度でタスク固有のオーバーフィッティングを引き起こすが、我々のアプローチは、様々なタスクにまたがる堅牢な一般化と効率を一貫して示している。
さらに,迅速な設計と損失重み付けがトレーニングの安定性と最終的な精度に大きく影響していることが判明した。
提案手法は,コンパクトなVLMから始まり,少数の報酬チェック可能なケースをキュレートし,RLVRを介してトレーニングする,データスカース分野の実践的レシピを提供する,ドメイン固有視言語推論モデルの費用対効果とデータ効率の向上を可能にする。
関連論文リスト
- Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。