Fugu-MT 論文翻訳(概要): GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for Automated Segmentation of Mobility Infrastructure

論文の概要: GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for Automated Segmentation of Mobility Infrastructure

arxiv url: http://arxiv.org/abs/2311.11319v2
Date: Tue, 30 Jan 2024 22:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 17:31:50.669240
Title: GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for Automated Segmentation of Mobility Infrastructure
Title（参考訳）: GeoSAM: モビリティインフラストラクチャの自動セグメンテーションのためのスパースと濃厚なビジュアルプロンプトを備えた微調整SAM
Authors: Rafi Ibn Sultan, Chengyin Li, Hui Zhu, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu
Abstract要約: Segment Anything Model (SAM)は、自然画像のセグメンテーションに適用された際、印象的な性能を示している。ゼロショット学習からの濃密な視覚的プロンプトを用いた微調整戦略を実装した新しいSAMベースのフレームワークであるGeographical SAMを提案する。提案したGeoSAMは,道路インフラストラクチャ,歩行者インフラストラクチャ,平均で26%,7%,17%,地理的イメージセグメンテーションに対する既存のアプローチをそれぞれ上回っている。
参考スコア（独自算出の注目度）: 12.742385668015782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Segment Anything Model (SAM) has shown impressive performance when applied to natural image segmentation. However, it struggles with geographical images like aerial and satellite imagery, especially when segmenting mobility infrastructure including roads, sidewalks, and crosswalks. This inferior performance stems from the narrow features of these objects, their textures blending into the surroundings, and interference from objects like trees, buildings, vehicles, and pedestrians - all of which can disorient the model to produce inaccurate segmentation maps. To address these challenges, we propose Geographical SAM (GeoSAM), a novel SAM-based framework that implements a fine-tuning strategy using the dense visual prompt from zero-shot learning, and the sparse visual prompt from a pre-trained CNN segmentation model. The proposed GeoSAM outperforms existing approaches for geographical image segmentation, specifically by 26%, 7%, and 17% for road infrastructure, pedestrian infrastructure, and on average, respectively, representing a momentous leap in leveraging foundation models to segment mobility infrastructure including both road and pedestrian infrastructure in geographical images. The source code can be found on this GitHub repository: https://github.com/rafiibnsultan/GeoSAM/tree/main.
Abstract（参考訳）: Segment Anything Model (SAM)は、自然画像のセグメンテーションに適用された際、印象的な性能を示している。しかし、特に道路、歩道、横断歩道などの移動インフラを分割する場合、航空画像や衛星画像のような地理的画像に苦しむ。この劣ったパフォーマンスは、これらのオブジェクトの狭い特徴、それらのテクスチャが周囲に混ざり合うこと、木、建物、車両、歩行者のようなオブジェクトから干渉することに由来する。これらの課題に対処するために,ゼロショット学習からの濃密な視覚的プロンプトと,事前学習したCNNセグメンテーションモデルからの疎密な視覚的プロンプトを用いて微調整戦略を実装する新しいSAMベースのフレームワークであるGeoSAMを提案する。提案するジオサムは, 道路インフラ, 歩行者インフラ, および平均して26%, 7%, および17%の地理的画像分割手法を上回っており, 地理画像における道路インフラストラクチャと歩行者インフラストラクチャを含む移動インフラの分割に基礎モデルを活用する際の瞬間的な飛躍を表している。ソースコードはこのgithubリポジトリにある。 https://github.com/rafiibnsultan/geosam/tree/main。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
SAM2 for Image and Video Segmentation: A Comprehensive Survey [0.0]
画像とビデオのセグメンテーションは、医療、農業、産業検査、自動運転など幅広い分野で応用されているコンピュータビジョンの基本的なタスクである。大規模ファンデーションモデルの出現により、SAM2はセグメンテーションタスクに最適化され、複雑なシナリオにおけるパフォーマンスが向上した。本稿では,SAM2の映像・映像セグメンテーションへの応用を体系的に分析し,様々な分野での性能評価を行う。
論文参考訳（メタデータ） (2025-03-17T03:33:36Z)
UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction [51.54946346023673]
都市形態は本質的に複雑で、様々な形状と様々なスケールの不規則な物体がある。 Segment Anything Model (SAM) は複雑なシーンのセグメンテーションにおいて大きな可能性を示している。本研究では,複雑な都市環境の分析に特化して設計されたSAMのカスタマイズ版であるUrbanSAMを提案する。
論文参考訳（メタデータ） (2025-02-21T04:25:19Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-16T17:55:38Z)
Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文参考訳（メタデータ） (2024-07-31T02:24:53Z)
SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。 CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-07-25T01:12:48Z)
WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。 WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-07-14T09:31:21Z)
AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文参考訳（メタデータ） (2024-06-01T16:21:39Z)
Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文参考訳（メタデータ） (2024-04-18T17:59:53Z)
Segment Anything Model for Road Network Graph Extraction [27.789980798493463]
衛星画像から大規模でベクトル化された道路網グラフを抽出するためのSAM-Roadを提案する。 SAM-Roadは単純で単純で最小限の設計で、最先端のRNGDet++で同等の精度を実現している。
論文参考訳（メタデータ） (2024-03-24T07:36:38Z)
BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。 BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-02-26T06:36:32Z)
Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。 SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文参考訳（メタデータ） (2023-12-06T17:19:00Z)
Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文参考訳（メタデータ） (2023-11-14T11:05:08Z)
Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。 SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。この新しいアプローチはSAMを認識能力で強化する。
論文参考訳（メタデータ） (2023-10-03T07:19:59Z)
Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。 DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:58:01Z)
SAD: Segment Any RGBD [54.24917975958583]
Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
論文参考訳（メタデータ） (2023-05-23T16:26:56Z)
A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering [49.732628643634975]
Meta AI Researchが開発したSegment Anything Model (SAM)は、画像とビデオのセグメンテーションのための堅牢なフレームワークを提供する。このサーベイはSAMファミリーの包括的調査を提供し、SAMとSAM 2は粒度と文脈理解の進歩を強調している。
論文参考訳（メタデータ） (2023-05-12T07:21:59Z)
Structured Bird's-Eye-View Traffic Scene Understanding from Onboard Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2021-10-05T12:40:33Z)
Rethinking Semantic Segmentation Evaluation for Explainability and Model Selection [12.786648212233116]
地域ベースのオーバーおよびアンダーセグメンテーションを評価するための新しいメトリクスを紹介します。分析して他のメトリクスと比較し、実世界のアプリケーションにおけるセマンティックセグメンテーションモデルのパフォーマンスをより説明しやすくなることを示す。
論文参考訳（メタデータ） (2021-01-21T03:12:43Z)
Semantic Segmentation of Medium-Resolution Satellite Imagery using Conditional Generative Adversarial Networks [3.4797121357690153]
本稿では,高解像度衛星画像に対する画像と画像の変換手法として,CGAN(Conditional Generative Adversarial Networks)を提案する。 CGANモデルは、見当たらない不均衡なテストデータセットにおいて、同様の複雑性のCNNモデルよりもかなりのマージンで優れていることがわかった。
論文参考訳（メタデータ） (2020-12-05T18:18:45Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。