論文の概要: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided
Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2304.10597v1
- Date: Thu, 20 Apr 2023 18:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:43:40.338107
- Title: Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided
Visual Foundation Models
- Title(参考訳): Text2Seg:テキスト誘導ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション
- Authors: Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Lan Mu, Mengxuan Hu, Sheng
Li
- Abstract要約: 本研究では,従来のシナリオと画像の相違が顕著なリモートセンシング領域に焦点を当てた。
テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセグメンテーションタスクを容易にするために,複数の基盤モデルを活用するパイプラインを開発した。
パイプラインは、広く使われているリモートセンシングデータセットをベンチマークし、その有効性を示すための予備的な結果を示す。
- 参考スコア(独自算出の注目度): 5.360103006279672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in foundation models (FMs), such as GPT-4 and LLaMA, have
attracted significant attention due to their exceptional performance in
zero-shot learning scenarios. Similarly, in the field of visual learning,
models like Grounding DINO and the Segment Anything Model (SAM) have exhibited
remarkable progress in open-set detection and instance segmentation tasks. It
is undeniable that these FMs will profoundly impact a wide range of real-world
visual learning tasks, ushering in a new paradigm shift for developing such
models. In this study, we concentrate on the remote sensing domain, where the
images are notably dissimilar from those in conventional scenarios. We
developed a pipeline that leverages multiple FMs to facilitate remote sensing
image semantic segmentation tasks guided by text prompt, which we denote as
Text2Seg. The pipeline is benchmarked on several widely-used remote sensing
datasets, and we present preliminary results to demonstrate its effectiveness.
Through this work, we aim to provide insights into maximizing the applicability
of visual FMs in specific contexts with minimal model tuning. The code is
available at https://github.com/Douglas2Code/Text2Seg.
- Abstract(参考訳): GPT-4やLLaMAのような基礎モデル(FM)の最近の進歩は、ゼロショット学習シナリオにおける例外的な性能のために大きな注目を集めている。
同様に、視覚学習の分野では、Grounding DINOやSegment Anything Model (SAM)のようなモデルは、オープンセット検出やインスタンスセグメンテーションタスクにおいて顕著な進歩を見せている。
これらのFMが現実世界の視覚学習タスクに多大な影響を及ぼし、そのようなモデルを開発するための新たなパラダイムシフトをもたらすことは、疑いようがない。
本研究では, リモートセンシング領域に焦点をあて, 従来のシナリオでは画像が特に異なる領域に注目する。
テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセマンティクスタスクを容易にするために,複数のFMを利用するパイプラインを開発した。
このパイプラインは,広く使用されているリモートセンシングデータセット上でベンチマークを行い,その効果を示すための予備的な結果を示す。
本研究は、最小限のモデルチューニングを用いて、特定のコンテキストにおける視覚的FMの適用性を最大化するための洞察を提供することを目的とする。
コードはhttps://github.com/Douglas2Code/Text2Segで入手できる。
関連論文リスト
- AM-RADIO: Agglomerative Model -- Reduce All Domains Into One [51.98777863920393]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Adapting Segment Anything Model for Change Detection in HR Remote
Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文 参考訳(メタデータ) (2023-09-04T08:23:31Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - DINO-MC: Self-supervised Contrastive Learning for Remote Sensing Imagery
with Multi-sized Local Crops [1.1699472346137738]
DINOに触発されて、リモートセンシング画像の自己教師型学習に使用する2つのプレテキストタスクを定式化した。
我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
我々の実験は、データセットの10%しか事前トレーニングしていない場合でも、DINO-MCは、複数のリモートセンシングタスクにおける既存のSSLRSメソッドの状態を同等かそれ以上に実行することを示した。
論文 参考訳(メタデータ) (2023-03-12T14:24:10Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。