論文の概要: Multi-view Remote Sensing Image Segmentation With SAM priors
- arxiv url: http://arxiv.org/abs/2405.14171v1
- Date: Thu, 23 May 2024 04:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:55:13.787961
- Title: Multi-view Remote Sensing Image Segmentation With SAM priors
- Title(参考訳): SAM先行画像を用いた多視点リモートセンシング画像分割
- Authors: Zipeng Qi, Chenyang Liu, Zili Liu, Hao Chen, Yongchang Wu, Zhengxia Zou, Zhenwei Sh,
- Abstract要約: リモートセンシングにおけるマルチビューセグメンテーションは、シーン内の様々な視点から画像を分割することを目指している。
近年の手法では、インプシットニューラルネットワーク(INF)から抽出した3次元情報を活用し、複数のビューにまたがって結果の整合性を高めている。
本稿では,視覚基盤モデル-Segment Anything (SAM) の先行を INF に注入し,限られたトレーニングデータ量でより良い結果を得る方法を提案する。
- 参考スコア(独自算出の注目度): 15.123894196919972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view segmentation in Remote Sensing (RS) seeks to segment images from diverse perspectives within a scene. Recent methods leverage 3D information extracted from an Implicit Neural Field (INF), bolstering result consistency across multiple views while using limited accounts of labels (even within 3-5 labels) to streamline labor. Nonetheless, achieving superior performance within the constraints of limited-view labels remains challenging due to inadequate scene-wide supervision and insufficient semantic features within the INF. To address these. we propose to inject the prior of the visual foundation model-Segment Anything(SAM), to the INF to obtain better results under the limited number of training data. Specifically, we contrast SAM features between testing and training views to derive pseudo labels for each testing view, augmenting scene-wide labeling information. Subsequently, we introduce SAM features via a transformer into the INF of the scene, supplementing the semantic information. The experimental results demonstrate that our method outperforms the mainstream method, confirming the efficacy of SAM as a supplement to the INF for this task.
- Abstract(参考訳): リモートセンシング(RS)におけるマルチビューセグメンテーションは、シーン内の様々な視点から画像を分割することを目指している。
最近の手法では、インプシットニューラルネットワーク(INF)から抽出した3D情報を活用し、複数のビューにまたがって結果の一貫性を高め、ラベルの限られたアカウント(3~5ラベル以内)を使用して作業の合理化を行っている。
それでも、限定ビューラベルの制約の中で優れたパフォーマンスを達成することは、シーン全体の監督が不十分で、INF内でのセマンティックな特徴が不十分であるため、依然として困難である。
これらの問題に対処する。
本稿では,視覚基盤モデル-Segment Anything(SAM)の先行をINFに注入して,限られたトレーニングデータ数でより良い結果を得る方法を提案する。
具体的には,テストビューとトレーニングビューのSAM特徴を対比し,各テストビューに擬似ラベルを導出し,シーンワイドなラベリング情報を増強する。
次に,シーンのINFにトランスフォーマーを介してSAM機能を導入し,セマンティック情報を補完する。
実験の結果,本手法は本手法よりも優れており,この課題に対するINFの補充としてSAMの有効性が確認された。
関連論文リスト
- Prompting DirectSAM for Semantic Contour Extraction in Remote Sensing Images [11.845626002236772]
我々は,自然画像から得られる強いセグメンテーション機能を継承するDirectSAM-RSという,DirectSAMから派生した基盤モデルを提案する。
このデータセットは34k以上の画像-テキスト-コンテンツトレーレットで構成されており、個々のデータセットの少なくとも30倍の大きさである。
我々は、DirectSAM-RSをゼロショットと微調整の両方で評価し、複数のダウンストリームベンチマークで最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-10-08T16:55:42Z) - Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery [15.748043194987075]
この研究は、X線/赤外線モダリティに関心のあるオブジェクトのセグメンテーションにおけるセグメンション・任意のモデル機能を評価する。
提案手法は,ボックスプロンプトが与えられた場合,SAMはオブジェクトをX線モードで分割できるが,その性能は点プロンプトによって異なる。
このモダリティの低コントラストの性質を考えると、赤外線オブジェクトもポイントプロンプトでセグメント化することが困難である。
論文 参考訳(メタデータ) (2024-04-18T16:04:14Z) - Deep Instruction Tuning for Segment Anything Model [68.7934961590075]
Segment Anything Model (SAM) はマルチメディアとコンピュータビジョンの分野で研究ホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、テキストで指示されたタスクでは、はるかに悪化する。
SAMのための2つの簡易かつ効果的なディープ・インストラクション・チューニング(DIT)手法を提案し,その1つはエンドツーエンドであり、もう1つはレイヤワイズである。
論文 参考訳(メタデータ) (2024-03-31T11:37:43Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for
Remote Sensing Image Semantic Segmentation [10.37240769959699]
Segment Anything Model (SAM)は、イメージセグメンテーションタスクのための普遍的な事前トレーニングモデルを提供する。
本稿では,セマンティックを用いたリモートセンシングSAM(RSAM-Seg)を提案する。
SAMのエンコーダ部分のマルチヘッドアテンションブロックにおいて,アダプタスケール(Adapter-Scale)が提案されている。
クラウド検出、フィールド監視、ビル検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。
論文 参考訳(メタデータ) (2024-02-29T09:55:46Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。