論文の概要: MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps
- arxiv url: http://arxiv.org/abs/2411.06971v1
- Date: Mon, 11 Nov 2024 13:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:05.512491
- Title: MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps
- Title(参考訳): MapSAM: 歴史的地図における特徴の自動検出のためのセグメンテーションモデルの適用
- Authors: Xue Xia, Daiwei Zhang, Wenxuan Song, Wei Huang, Lorenz Hurni,
- Abstract要約: 我々は,パラメータ効率のよい微調整戦略であるMapSAMを紹介した。
具体的には、画像エンコーダにドメイン固有の知識を統合するために、Weight-Decomposed Low-Rank Adaptation (DoRA) を用いる。
手動入力を必要としない自動プロンプト生成プロセスを開発した。
- 参考スコア(独自算出の注目度): 6.414068793245697
- License:
- Abstract: Automated feature detection in historical maps can significantly accelerate the reconstruction of the geospatial past. However, this process is often constrained by the time-consuming task of manually digitizing sufficient high-quality training data. The emergence of visual foundation models, such as the Segment Anything Model (SAM), offers a promising solution due to their remarkable generalization capabilities and rapid adaptation to new data distributions. Despite this, directly applying SAM in a zero-shot manner to historical map segmentation poses significant challenges, including poor recognition of certain geospatial features and a reliance on input prompts, which limits its ability to be fully automated. To address these challenges, we introduce MapSAM, a parameter-efficient fine-tuning strategy that adapts SAM into a prompt-free and versatile solution for various downstream historical map segmentation tasks. Specifically, we employ Weight-Decomposed Low-Rank Adaptation (DoRA) to integrate domain-specific knowledge into the image encoder. Additionally, we develop an automatic prompt generation process, eliminating the need for manual input. We further enhance the positional prompt in SAM, transforming it into a higher-level positional-semantic prompt, and modify the cross-attention mechanism in the mask decoder with masked attention for more effective feature aggregation. The proposed MapSAM framework demonstrates promising performance across two distinct historical map segmentation tasks: one focused on linear features and the other on areal features. Experimental results show that it adapts well to various features, even when fine-tuned with extremely limited data (e.g. 10 shots).
- Abstract(参考訳): 歴史地図における自動特徴検出は地理空間過去の再構築を著しく加速させることができる。
しかし、このプロセスは、十分な高品質のトレーニングデータを手作業でデジタル化する、時間を要するタスクによって制約されることが多い。
Segment Anything Model (SAM) のような視覚基盤モデルの出現は、その顕著な一般化能力と新しいデータ分布への迅速な適応により、有望なソリューションを提供する。
それにもかかわらず、歴史的地図のセグメンテーションにSAMを直接ゼロショットで適用することは、特定の地理空間的特徴の認識の貧弱さや入力プロンプトへの依存など、重要な課題を生じさせ、完全に自動化される能力を制限する。
これらの課題に対処するために,パラメータ効率のよい微調整戦略であるMapSAMを導入し,様々なダウンストリーム履歴マップセグメンテーションタスクに対して,SAMをプロンプトフリーで汎用的なソリューションに適応させる。
具体的には、画像エンコーダにドメイン固有の知識を統合するために、Weight-Decomposed Low-Rank Adaptation (DoRA) を用いる。
さらに,手動入力の必要性を解消し,自動プロンプト生成プロセスを開発する。
我々はSAMにおける位置プロンプトをさらに強化し、より高レベルの位置セマンティックプロンプトに変換し、マスクデコーダにおけるクロスアテンション機構をマスクアテンションで修正し、より効果的な特徴アグリゲーションを実現した。
提案されたMapSAMフレームワークは、2つの異なる履歴マップセグメンテーションタスクで有望なパフォーマンスを示す。
実験の結果、非常に限られたデータ(例:10ショット)で微調整しても、様々な特徴に順応することがわかった。
関連論文リスト
- AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。
提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。
実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文 参考訳(メタデータ) (2024-10-13T03:47:20Z) - Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts [14.631774737903015]
既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
我々は、オブジェクトカテゴリを入力として含まない未確認オブジェクトを検出する、オープンな対象検出(textiti.e.)を提案する。
提案手法は,オブジェクト検出タスクにおける従来のオープンエンドメソッドを超越し,追加のインスタンスセグメンテーションマスクを提供できることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:15:08Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model [15.803614800117781]
DiffMapは,マップセグメンテーションマスクの構造をモデル化する新しい手法である。
この手法を取り入れることで,既存のセマンティックセグメンテーション手法の性能を大幅に向上させることができる。
本モデルは,実世界の地図レイアウトをより正確に反映した結果を生成する上で,優れた習熟度を示す。
論文 参考訳(メタデータ) (2024-05-03T11:16:27Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Improving Fine-Grained Visual Recognition in Low Data Regimes via
Self-Boosting Attention Mechanism [27.628260249895973]
SAM(Self-boosting attention mechanism)は、ネットワークを正規化して、サンプルやクラス間で共有されるキー領域に集中するための新しい手法である。
我々はSAMを用いて、二線形プール方式で畳み込みマップをプールするために複数の注意マップを作成する変種を開発する。
論文 参考訳(メタデータ) (2022-08-01T05:36:27Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。