論文の概要: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2304.10597v2
- Date: Sun, 25 Aug 2024 01:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:26:59.110870
- Title: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
- Title(参考訳): Text2Seg: テキストガイド型ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション
- Authors: Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Mengxuan Hu, Zihan Guan, Sheng Li, Lan Mu,
- Abstract要約: リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 7.452422412106768
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Remote sensing imagery has attracted significant attention in recent years due to its instrumental role in global environmental monitoring, land usage monitoring, and more. As image databases grow each year, performing automatic segmentation with deep learning models has gradually become the standard approach for processing the data. Despite the improved performance of current models, certain limitations remain unresolved. Firstly, training deep learning models for segmentation requires per-pixel annotations. Given the large size of datasets, only a small portion is fully annotated and ready for training. Additionally, the high intra-dataset variance in remote sensing data limits the transfer learning ability of such models. Although recently proposed generic segmentation models like SAM have shown promising results in zero-shot instance-level segmentation, adapting them to semantic segmentation is a non-trivial task. To tackle these challenges, we propose a novel method named Text2Seg for remote sensing semantic segmentation. Text2Seg overcomes the dependency on extensive annotations by employing an automatic prompt generation process using different visual foundation models (VFMs), which are trained to understand semantic information in various ways. This approach not only reduces the need for fully annotated datasets but also enhances the model's ability to generalize across diverse datasets. Evaluations on four widely adopted remote sensing datasets demonstrate that Text2Seg significantly improves zero-shot prediction performance compared to the vanilla SAM model, with relative improvements ranging from 31% to 225%. Our code is available at https://github.com/Douglas2Code/Text2Seg.
- Abstract(参考訳): リモートセンシング画像は,地球環境モニタリングや土地利用監視などにおいて重要な役割を担っているため,近年注目されている。
画像データベースが年々成長するにつれて、ディープラーニングモデルによる自動セグメンテーションが、データ処理の標準的なアプローチになりつつある。
現在のモデルの性能は改善されているが、いくつかの制限は未解決のままである。
まず、セグメンテーションのためのディープラーニングモデルをトレーニングするには、ピクセル単位のアノテーションが必要である。
データセットが大きければ、完全に注釈付けされ、トレーニングの準備ができているのはごく一部のみである。
さらに、リモートセンシングデータにおける高データセット内分散は、そのようなモデルの転送学習能力を制限する。
最近提案されたSAMのようなジェネリックセグメンテーションモデルは、ゼロショットのインスタンスレベルのセグメンテーションにおいて有望な結果を示しているが、セグメンテーションにそれらを適用することは非自明な作業である。
これらの課題に対処するために,リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
Text2Segは、さまざまな視覚基盤モデル(VFM)を使用して、様々な方法で意味情報を理解するためにトレーニングされた自動プロンプト生成プロセスを使用することで、広範囲なアノテーションへの依存を克服する。
このアプローチによって、完全なアノテーション付きデータセットの必要性が軽減されるだけでなく、さまざまなデータセットをまたいでモデルを一般化する能力も向上する。
4つの広く採用されているリモートセンシングデータセットの評価によると、Text2SegはバニラSAMモデルと比較してゼロショット予測性能を著しく改善し、相対的な改善は31%から225%である。
私たちのコードはhttps://github.com/Douglas2Code/Text2Segで利用可能です。
関連論文リスト
- Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Adapting Segment Anything Model for Change Detection in HR Remote
Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文 参考訳(メタデータ) (2023-09-04T08:23:31Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Extending global-local view alignment for self-supervised learning with remote sensing imagery [1.5192294544599656]
自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化することにより、一般的な特徴表現を取得する。
DINOに触発されて、リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。
我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
論文 参考訳(メタデータ) (2023-03-12T14:24:10Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。