論文の概要: Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing
- arxiv url: http://arxiv.org/abs/2503.07911v1
- Date: Mon, 10 Mar 2025 23:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:56.235277
- Title: Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing
- Title(参考訳): Visual and Text Prompt Segmentation: リモートセンシングのための新しいマルチモデルフレームワーク
- Authors: Xing Zi, Kairui Jin, Xian Tao, Jun Li, Ali Braytee, Rajiv Ratn Shah, Mukesh Prasad,
- Abstract要約: 本稿では,Grounding DINO,CLIP,SAMの強みを活かしたVTPSegパイプラインを提案する。
このパイプラインは,5つの一般的なリモートセンシング画像セグメンテーションデータセットを用いて,実験およびアブレーションによる検証を行った。
- 参考スコア(独自算出の注目度): 30.980687857037033
- License:
- Abstract: Pixel-level segmentation is essential in remote sensing, where foundational vision models like CLIP and Segment Anything Model(SAM) have demonstrated significant capabilities in zero-shot segmentation tasks. Despite their advances, challenges specific to remote sensing remain substantial. Firstly, The SAM without clear prompt constraints, often generates redundant masks, and making post-processing more complex. Secondly, the CLIP model, mainly designed for global feature alignment in foundational models, often overlooks local objects crucial to remote sensing. This oversight leads to inaccurate recognition or misplaced focus in multi-target remote sensing imagery. Thirdly, both models have not been pre-trained on multi-scale aerial views, increasing the likelihood of detection failures. To tackle these challenges, we introduce the innovative VTPSeg pipeline, utilizing the strengths of Grounding DINO, CLIP, and SAM for enhanced open-vocabulary image segmentation. The Grounding DINO+(GD+) module generates initial candidate bounding boxes, while the CLIP Filter++(CLIP++) module uses a combination of visual and textual prompts to refine and filter out irrelevant object bounding boxes, ensuring that only pertinent objects are considered. Subsequently, these refined bounding boxes serve as specific prompts for the FastSAM model, which executes precise segmentation. Our VTPSeg is validated by experimental and ablation study results on five popular remote sensing image segmentation datasets.
- Abstract(参考訳): CLIPやSegment Anything Model(SAM)のような基本的なビジョンモデルは、ゼロショットセグメンテーションタスクにおいて重要な機能を示す。
彼らの進歩にもかかわらず、リモートセンシングに特有な課題は依然として深刻である。
まず、SAMは明確なプロンプト制約がなく、しばしば冗長なマスクを生成し、後処理をより複雑にする。
第二に、CLIPモデルは、主に基本モデルのグローバルな機能アライメントのために設計されており、リモートセンシングに不可欠なローカルオブジェクトを見落としていることが多い。
この監視は、不正確な認識や、マルチターゲットリモートセンシング画像への誤配置につながる。
第3に、どちらのモデルもマルチスケールの空中ビューで事前訓練を受けておらず、検出失敗の可能性を高めている。
これらの課題に対処するために、Grounding DINO、CLIP、SAMの強みを活かした革新的なVTPSegパイプラインを導入し、オープン語彙画像のセグメンテーションを強化した。
Grounding DINO+(GD+)モジュールは初期候補バウンディングボックスを生成するが、CLIP Filter++(CLIP++)モジュールは視覚とテキストのプロンプトを組み合わせて非関連なオブジェクトバウンディングボックスを洗練・フィルタリングし、関連するオブジェクトのみが考慮されることを保証する。
その後、これらの洗練されたバウンディングボックスは、正確なセグメンテーションを実行するFastSAMモデルの特定のプロンプトとして機能する。
我々のVTPSegは、5つの一般的なリモートセンシング画像セグメンテーションデータセットの実験的およびアブレーション研究によって検証されている。
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing [11.626527403157922]
本稿では、リモートセンシング画像のための新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。
PIEViTは内部パッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善されている。
オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。
論文 参考訳(メタデータ) (2024-11-09T07:06:31Z) - One Shot is Enough for Sequential Infrared Small Target Segmentation [9.354927663020586]
赤外線小ターゲットシーケンスはフレーム間に強い類似性を示し、リッチなコンテキスト情報を含む。
本稿では,SAMのゼロショット一般化能力を逐次IRSTSに完全に適応させるワンショット・トレーニングフリーな手法を提案する。
実験の結果,現状のIRSTS法に匹敵する性能を達成するためには,本手法では1ショットしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-08-09T02:36:56Z) - Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
従来の前処理のサンプリング手法は意味的特徴を無視することが多く、詳細な損失や接地点干渉を引き起こす。
本稿では,Semantic-aware Multi-branch Smpling (SMS)モジュールとマルチビュー制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for
Remote Sensing Image Semantic Segmentation [10.37240769959699]
Segment Anything Model (SAM)は、イメージセグメンテーションタスクのための普遍的な事前トレーニングモデルを提供する。
本稿では,セマンティックを用いたリモートセンシングSAM(RSAM-Seg)を提案する。
SAMのエンコーダ部分のマルチヘッドアテンションブロックにおいて,アダプタスケール(Adapter-Scale)が提案されている。
クラウド検出、フィールド監視、ビル検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。
論文 参考訳(メタデータ) (2024-02-29T09:55:46Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。