Fugu-MT 論文翻訳(概要): Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models

論文の概要: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models

arxiv url: http://arxiv.org/abs/2304.10597v2
Date: Sun, 25 Aug 2024 01:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 01:26:59.110870
Title: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
Title（参考訳）: Text2Seg: テキストガイド型ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション
Authors: Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Mengxuan Hu, Zihan Guan, Sheng Li, Lan Mu,
Abstract要約: リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
参考スコア（独自算出の注目度）: 7.452422412106768
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Remote sensing imagery has attracted significant attention in recent years due to its instrumental role in global environmental monitoring, land usage monitoring, and more. As image databases grow each year, performing automatic segmentation with deep learning models has gradually become the standard approach for processing the data. Despite the improved performance of current models, certain limitations remain unresolved. Firstly, training deep learning models for segmentation requires per-pixel annotations. Given the large size of datasets, only a small portion is fully annotated and ready for training. Additionally, the high intra-dataset variance in remote sensing data limits the transfer learning ability of such models. Although recently proposed generic segmentation models like SAM have shown promising results in zero-shot instance-level segmentation, adapting them to semantic segmentation is a non-trivial task. To tackle these challenges, we propose a novel method named Text2Seg for remote sensing semantic segmentation. Text2Seg overcomes the dependency on extensive annotations by employing an automatic prompt generation process using different visual foundation models (VFMs), which are trained to understand semantic information in various ways. This approach not only reduces the need for fully annotated datasets but also enhances the model's ability to generalize across diverse datasets. Evaluations on four widely adopted remote sensing datasets demonstrate that Text2Seg significantly improves zero-shot prediction performance compared to the vanilla SAM model, with relative improvements ranging from 31% to 225%. Our code is available at https://github.com/Douglas2Code/Text2Seg.
Abstract（参考訳）: リモートセンシング画像は,地球環境モニタリングや土地利用監視などにおいて重要な役割を担っているため,近年注目されている。画像データベースが年々成長するにつれて、ディープラーニングモデルによる自動セグメンテーションが、データ処理の標準的なアプローチになりつつある。現在のモデルの性能は改善されているが、いくつかの制限は未解決のままである。まず、セグメンテーションのためのディープラーニングモデルをトレーニングするには、ピクセル単位のアノテーションが必要である。データセットが大きければ、完全に注釈付けされ、トレーニングの準備ができているのはごく一部のみである。さらに、リモートセンシングデータにおける高データセット内分散は、そのようなモデルの転送学習能力を制限する。最近提案されたSAMのようなジェネリックセグメンテーションモデルは、ゼロショットのインスタンスレベルのセグメンテーションにおいて有望な結果を示しているが、セグメンテーションにそれらを適用することは非自明な作業である。これらの課題に対処するために,リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。 Text2Segは、さまざまな視覚基盤モデル(VFM)を使用して、様々な方法で意味情報を理解するためにトレーニングされた自動プロンプト生成プロセスを使用することで、広範囲なアノテーションへの依存を克服する。このアプローチによって、完全なアノテーション付きデータセットの必要性が軽減されるだけでなく、さまざまなデータセットをまたいでモデルを一般化する能力も向上する。 4つの広く採用されているリモートセンシングデータセットの評価によると、Text2SegはバニラSAMモデルと比較してゼロショット予測性能を著しく改善し、相対的な改善は31%から225%である。私たちのコードはhttps://github.com/Douglas2Code/Text2Segで利用可能です。

関連論文リスト

AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images [21.294581646546124]
AerOSegは、リモートセンシングデータのための新しいOpen-Vocabulary (OVS)アプローチである。入力画像の回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。我々は, マルチスケールのアテンション・アウェア・コンポジションを用いて, 最終的なセグメンテーション・マップを作成することにより, 改良された相関性を向上する。
論文参考訳（メタデータ） (2025-04-12T13:06:46Z)
Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation [16.58381088280145]
我々は,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic)を導入し,任意のセマンティッククラスをリモートセンシング画像に分割する。 OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-27T07:20:30Z)
Learn from Foundation Model: Fruit Detection Model without Manual Annotation [8.486694650855949]
農業は十分なデータを持たない領域の1つである。そこで本研究では,手動のアノテーションを使わずに,基礎モデルから効果的でドメイン固有な小さなモデルを学習するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-25T08:52:46Z)
Generalized Few-Shot Semantic Segmentation in Remote Sensing: Challenge and Benchmark [18.636210870172675]
ほとんどショットのセマンティックセグメンテーションは、訓練中に見られない新しいクラスのラベル付き例から学ぶことをディープラーニングモデルに促す。一般化された数ショットセグメンテーション設定では、モデルが新しいクラスに適応するだけでなく、トレーニングベースクラスで強力なパフォーマンスを維持することを奨励する追加の課題がある。一般化された数ショット評価設定のためにラベル付けされた追加クラスを備えたOpenEarthMapの拡張データセットをリリースする。
論文参考訳（メタデータ） (2024-09-17T14:20:47Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
論文参考訳（メタデータ） (2023-10-03T07:19:59Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文参考訳（メタデータ） (2021-06-20T03:03:40Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。