論文の概要: GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation
- arxiv url: http://arxiv.org/abs/2311.11319v3
- Date: Mon, 09 Dec 2024 17:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:56.989146
- Title: GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation
- Title(参考訳): GeoSAM: インフラストラクチャセグメンテーションのためのマルチモーダルプロンプトを備えた微調整SAM
- Authors: Rafi Ibn Sultan, Chengyin Li, Hui Zhu, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu,
- Abstract要約: 地理的イメージセグメンテーションでは、トレーニングデータの可用性の制限と一般化性の欠如により、性能が制限されることがしばしばある。
自動生成マルチモーダルプロンプトでSAMを微調整するSAMベースのフレームワークであるGeoSAMを提案する。
GeoSAMは、慣れ親しんだ領域と完全に見えない領域の両方において、移動インフラのセグメンテーションに対する既存のアプローチを、mIoUで少なくとも5%上回っている。
- 参考スコア(独自算出の注目度): 12.133921433477862
- License:
- Abstract: In geographical image segmentation, performance is often constrained by the limited availability of training data and a lack of generalizability, particularly for segmenting mobility infrastructure such as roads, sidewalks, and crosswalks. Vision foundation models like the Segment Anything Model (SAM), pre-trained on millions of natural images, have demonstrated impressive zero-shot segmentation performance, providing a potential solution. However, SAM struggles with geographical images, such as aerial and satellite imagery, due to its training being confined to natural images and the narrow features and textures of these objects blending into their surroundings. To address these challenges, we propose Geographical SAM (GeoSAM), a SAM-based framework that fine-tunes SAM with automatically generated multi-modal prompts, combining point prompts from a pre-trained task-specific model as primary visual guidance and text prompts from a large language model as secondary semantic guidance to enhance model comprehension. GeoSAM outperforms existing approaches for mobility infrastructure segmentation in both familiar and completely unseen regions by at least 5\% in mIoU, representing a significant leap in leveraging foundation models to segment mobility infrastructure, including both road and pedestrian infrastructure in geographical images. The source code can be found in this GitHub Repository: https://github.com/rafiibnsultan/GeoSAM.
- Abstract(参考訳): 地理的画像のセグメンテーションでは、訓練データの可用性の制限と一般化性の欠如、特に道路、歩道、横断歩道などのセグメンテーションのインフラにおいて、性能が制限されることがしばしばある。
Segment Anything Model (SAM)のようなビジョン基盤モデルは、何百万もの自然画像で事前訓練され、印象的なゼロショットセグメンテーションのパフォーマンスを示し、潜在的な解決策を提供している。
しかしSAMは、その訓練は自然画像に限られており、これらの物体の細い特徴やテクスチャが周囲に混ざり合っているため、航空画像や衛星画像のような地理的イメージに苦しむ。
これらの課題に対処するために,SAM を自動生成マルチモーダルプロンプトで微調整する SAM ベースのフレームワークである Geographical SAM (GeoSAM) を提案する。
GeoSAMは、mIoUにおいて、慣れ親しんだ領域と完全に見えない領域の両方において、既存のモビリティインフラストラクチャのセグメンテーションのアプローチを少なくとも5倍に上回り、地理的イメージにおける道路と歩行者の両方のインフラストラクチャを含む、モビリティインフラストラクチャのセグメンテーションに基盤モデルを活用するという大きな飛躍を示している。
ソースコードはGitHub Repositoryで確認できる。
関連論文リスト
- SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Segment Anything Model for Road Network Graph Extraction [27.789980798493463]
衛星画像から大規模でベクトル化された道路網グラフを抽出するためのSAM-Roadを提案する。
SAM-Roadは単純で単純で最小限の設計で、最先端のRNGDet++で同等の精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T07:36:38Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - SAD: Segment Any RGBD [54.24917975958583]
Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。
本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:26:56Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - Rethinking Semantic Segmentation Evaluation for Explainability and Model
Selection [12.786648212233116]
地域ベースのオーバーおよびアンダーセグメンテーションを評価するための新しいメトリクスを紹介します。
分析して他のメトリクスと比較し、実世界のアプリケーションにおけるセマンティックセグメンテーションモデルのパフォーマンスをより説明しやすくなることを示す。
論文 参考訳(メタデータ) (2021-01-21T03:12:43Z) - Semantic Segmentation of Medium-Resolution Satellite Imagery using
Conditional Generative Adversarial Networks [3.4797121357690153]
本稿では,高解像度衛星画像に対する画像と画像の変換手法として,CGAN(Conditional Generative Adversarial Networks)を提案する。
CGANモデルは、見当たらない不均衡なテストデータセットにおいて、同様の複雑性のCNNモデルよりもかなりのマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-12-05T18:18:45Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。