論文の概要: GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for
Automated Segmentation of Mobility Infrastructure
- arxiv url: http://arxiv.org/abs/2311.11319v1
- Date: Sun, 19 Nov 2023 13:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:56:37.126291
- Title: GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for
Automated Segmentation of Mobility Infrastructure
- Title(参考訳): GeoSAM: モビリティインフラストラクチャの自動セグメンテーションのためのスパースと濃厚なビジュアルプロンプトを備えた微調整SAM
- Authors: Rafi Ibn Sultan, Chengyin Li, Hui Zhu, Prashant Khanduri, Marco
Brocanelli, Dongxiao Zhu
- Abstract要約: Segment Anything Model (SAM)は、自然画像のセグメンテーションに適用された際、印象的な性能を示している。
ゼロショット学習からの濃密な視覚的プロンプトを用いた微調整戦略を実装した新しいSAMベースのフレームワークであるGeoSAMを提案する。
提案されたGeoSAMは、道路インフラストラクチャー、歩行者インフラストラクチャー、平均でそれぞれ20%、14.29%、および17.65%の地理的イメージセグメンテーションに対する既存のアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 12.742385668015782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) has shown impressive performance when
applied to natural image segmentation. However, it struggles with geographical
images like aerial and satellite imagery, especially when segmenting mobility
infrastructure including roads, sidewalks, and crosswalks. This inferior
performance stems from the narrow features of these objects, their textures
blending into the surroundings, and interference from objects like trees,
buildings, vehicles, and pedestrians - all of which can disorient the model to
produce inaccurate segmentation maps. To address these challenges, we propose
Geographical SAM (GeoSAM), a novel SAM-based framework that implements a
fine-tuning strategy using the dense visual prompt from zero-shot learning, and
the sparse visual prompt from a pre-trained CNN segmentation model. The
proposed GeoSAM outperforms existing approaches for geographical image
segmentation, specifically by 20%, 14.29%, and 17.65% for road infrastructure,
pedestrian infrastructure, and on average, respectively, representing a
momentous leap in leveraging foundation models to segment mobility
infrastructure including both road and pedestrian infrastructure in
geographical images.
- Abstract(参考訳): Segment Anything Model (SAM)は、自然画像のセグメンテーションに適用された際、印象的な性能を示している。
しかし、特に道路、歩道、横断歩道などの移動インフラを分割する場合、航空画像や衛星画像のような地理的画像に苦しむ。
この劣ったパフォーマンスは、これらのオブジェクトの狭い特徴、それらのテクスチャが周囲に混ざり合うこと、木、建物、車両、歩行者のようなオブジェクトから干渉することに由来する。
これらの課題に対処するために,ゼロショット学習からの濃密な視覚的プロンプトと,事前学習したCNNセグメンテーションモデルからの疎密な視覚的プロンプトを用いて微調整戦略を実装する新しいSAMベースのフレームワークであるGeoSAMを提案する。
提案したGeoSAMは、道路インフラ、歩行者インフラ、および平均17.65%において、道路と歩行者の両方のインフラを含む移動インフラのセグメント化に基礎モデルを活用するという重要な飛躍の成果として、地理的イメージセグメンテーションの既存のアプローチ、特に20%、14.29%、および17.65%を上回っている。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。
セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。
本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文 参考訳(メタデータ) (2024-07-31T02:24:53Z) - SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。
提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。
CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-25T01:12:48Z) - WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。
WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。
実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-14T09:31:21Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering [49.732628643634975]
Meta AI Researchが開発したSegment Anything Model (SAM)は、画像とビデオのセグメンテーションのための堅牢なフレームワークを提供する。
このサーベイはSAMファミリーの包括的調査を提供し、SAMとSAM 2は粒度と文脈理解の進歩を強調している。
論文 参考訳(メタデータ) (2023-05-12T07:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。