論文の概要: Enabling Training-Free Text-Based Remote Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2602.17799v1
- Date: Thu, 19 Feb 2026 20:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.128052
- Title: Enabling Training-Free Text-Based Remote Sensing Segmentation
- Title(参考訳): テキストフリーリモートセンシングセグメンテーションの実践
- Authors: Jose Sosa, Danila Rukhovich, Anis Kacem, Djamila Aouada,
- Abstract要約: テキストベースのリモートセンシングセグメンテーションは、既存の基礎モデルのみに依存することで、追加のトレーニングなしで実現できる。
我々は、対照的かつ生成的なVLMをSegment Anything Model(SAM)と統合する、単純で効果的なアプローチを提案する。
我々の対照的なアプローチでは、SAMのグリッドベースの提案のマスクセレクタとしてCLIPを採用し、完全にゼロショット設定で最先端のオープン語彙セマンティックセマンティックセグメンテーション(OVSS)を実現する。
並行して、GPT-5 を用いて SAM のクリックプロンプトをゼロショット設定で生成し、セグメンテーションの推論と参照を可能にする。
- 参考スコア(独自算出の注目度): 21.31811964222322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision Language Models (VLMs) and Vision Foundation Models (VFMs) have opened new opportunities for zero-shot text-guided segmentation of remote sensing imagery. However, most existing approaches still rely on additional trainable components, limiting their generalisation and practical applicability. In this work, we investigate to what extent text-based remote sensing segmentation can be achieved without additional training, by relying solely on existing foundation models. We propose a simple yet effective approach that integrates contrastive and generative VLMs with the Segment Anything Model (SAM), enabling a fully training-free or lightweight LoRA-tuned pipeline. Our contrastive approach employs CLIP as mask selector for SAM's grid-based proposals, achieving state-of-the-art open-vocabulary semantic segmentation (OVSS) in a completely zero-shot setting. In parallel, our generative approach enables reasoning and referring segmentation by generating click prompts for SAM using GPT-5 in a zero-shot setting and a LoRA-tuned Qwen-VL model, with the latter yielding the best results. Extensive experiments across 19 remote sensing benchmarks, including open-vocabulary, referring, and reasoning-based tasks, demonstrate the strong capabilities of our approach. Code will be released at https://github.com/josesosajs/trainfree-rs-segmentation.
- Abstract(参考訳): 近年のビジョン言語モデル (VLM) とビジョン基礎モデル (VFM) の進歩により、遠隔センシング画像のゼロショットテキスト誘導セグメンテーションの新たな機会が開かれた。
しかし、既存のアプローチの多くは、まだ追加のトレーニング可能なコンポーネントに依存しており、その一般化と実用性は制限されている。
本研究では,既存の基礎モデルのみに頼って,テキストベースのリモートセンシングセグメンテーションが追加トレーニングなしでどこまで達成できるかを検討する。
対照的かつ生成的なVLMをSAM(Segment Anything Model)と統合して,完全トレーニングフリーあるいは軽量なLoRAパイプラインを実現する,シンプルかつ効果的なアプローチを提案する。
我々の対照的なアプローチでは、SAMのグリッドベースの提案のマスクセレクタとしてCLIPを採用し、完全にゼロショット設定で最先端のオープン語彙セマンティックセマンティックセグメンテーション(OVSS)を実現する。
並列に,GPT-5 と LoRA-tuned Qwen-VL モデルを用いて SAM のクリックプロンプトを生成することにより,セグメンテーションの推論と参照を可能にする。
オープンボキャブラリ、参照、推論に基づくタスクを含む、19のリモートセンシングベンチマークにわたる大規模な実験は、我々のアプローチの強みを示しています。
コードはhttps://github.com/josesosajs/trainfree-rs-segmentationでリリースされる。
関連論文リスト
- Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing [8.731693840957716]
Think2Seg-RSはLVLMプロンプトをトレーニングし、構造化された幾何学的プロンプトを介して凍ったセグメンション・アプライシング・モデル(SAM)を制御するフレームワークである。
このフレームワークは、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
コンパクトセグメンタは、意味レベルの監督の下でより大きなセグメンタより優れており、異種空中背景において負のプロンプトは効果がない。
論文 参考訳(メタデータ) (2025-12-22T11:46:42Z) - Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing [30.980687857037033]
本稿では,Grounding DINO,CLIP,SAMの強みを活かしたVTPSegパイプラインを提案する。
このパイプラインは,5つの一般的なリモートセンシング画像セグメンテーションデータセットを用いて,実験およびアブレーションによる検証を行った。
論文 参考訳(メタデータ) (2025-03-10T23:15:57Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。