Fugu-MT 論文翻訳(概要): Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models

論文の概要: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models

arxiv url: http://arxiv.org/abs/2304.10597v1
Date: Thu, 20 Apr 2023 18:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 16:43:40.338107
Title: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
Title（参考訳）: Text2Seg:テキスト誘導ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション
Authors: Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Lan Mu, Mengxuan Hu, Sheng Li
Abstract要約: 本研究では,従来のシナリオと画像の相違が顕著なリモートセンシング領域に焦点を当てた。テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセグメンテーションタスクを容易にするために,複数の基盤モデルを活用するパイプラインを開発した。パイプラインは、広く使われているリモートセンシングデータセットをベンチマークし、その有効性を示すための予備的な結果を示す。
参考スコア（独自算出の注目度）: 5.360103006279672
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in foundation models (FMs), such as GPT-4 and LLaMA, have attracted significant attention due to their exceptional performance in zero-shot learning scenarios. Similarly, in the field of visual learning, models like Grounding DINO and the Segment Anything Model (SAM) have exhibited remarkable progress in open-set detection and instance segmentation tasks. It is undeniable that these FMs will profoundly impact a wide range of real-world visual learning tasks, ushering in a new paradigm shift for developing such models. In this study, we concentrate on the remote sensing domain, where the images are notably dissimilar from those in conventional scenarios. We developed a pipeline that leverages multiple FMs to facilitate remote sensing image semantic segmentation tasks guided by text prompt, which we denote as Text2Seg. The pipeline is benchmarked on several widely-used remote sensing datasets, and we present preliminary results to demonstrate its effectiveness. Through this work, we aim to provide insights into maximizing the applicability of visual FMs in specific contexts with minimal model tuning. The code is available at https://github.com/Douglas2Code/Text2Seg.
Abstract（参考訳）: GPT-4やLLaMAのような基礎モデル(FM)の最近の進歩は、ゼロショット学習シナリオにおける例外的な性能のために大きな注目を集めている。同様に、視覚学習の分野では、Grounding DINOやSegment Anything Model (SAM)のようなモデルは、オープンセット検出やインスタンスセグメンテーションタスクにおいて顕著な進歩を見せている。これらのFMが現実世界の視覚学習タスクに多大な影響を及ぼし、そのようなモデルを開発するための新たなパラダイムシフトをもたらすことは、疑いようがない。本研究では, リモートセンシング領域に焦点をあて, 従来のシナリオでは画像が特に異なる領域に注目する。テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセマンティクスタスクを容易にするために,複数のFMを利用するパイプラインを開発した。このパイプラインは,広く使用されているリモートセンシングデータセット上でベンチマークを行い,その効果を示すための予備的な結果を示す。本研究は、最小限のモデルチューニングを用いて、特定のコンテキストにおける視覚的FMの適用性を最大化するための洞察を提供することを目的とする。コードはhttps://github.com/Douglas2Code/Text2Segで入手できる。

関連論文リスト

RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images [21.294581646546124]
AerOSegは、リモートセンシングデータのための新しいOpen-Vocabulary (OVS)アプローチである。入力画像の回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。我々は, マルチスケールのアテンション・アウェア・コンポジションを用いて, 最終的なセグメンテーション・マップを作成することにより, 改良された相関性を向上する。
論文参考訳（メタデータ） (2025-04-12T13:06:46Z)
Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation [16.58381088280145]
我々は,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic)を導入し,任意のセマンティッククラスをリモートセンシング画像に分割する。 OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-27T07:20:30Z)
Learn from Foundation Model: Fruit Detection Model without Manual Annotation [8.486694650855949]
農業は十分なデータを持たない領域の1つである。そこで本研究では,手動のアノテーションを使わずに,基礎モデルから効果的でドメイン固有な小さなモデルを学習するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-25T08:52:46Z)
Generalized Few-Shot Semantic Segmentation in Remote Sensing: Challenge and Benchmark [18.636210870172675]
ほとんどショットのセマンティックセグメンテーションは、訓練中に見られない新しいクラスのラベル付き例から学ぶことをディープラーニングモデルに促す。一般化された数ショットセグメンテーション設定では、モデルが新しいクラスに適応するだけでなく、トレーニングベースクラスで強力なパフォーマンスを維持することを奨励する追加の課題がある。一般化された数ショット評価設定のためにラベル付けされた追加クラスを備えたOpenEarthMapの拡張データセットをリリースする。
論文参考訳（メタデータ） (2024-09-17T14:20:47Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
論文参考訳（メタデータ） (2023-10-03T07:19:59Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文参考訳（メタデータ） (2021-06-20T03:03:40Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。