論文の概要: Few-Shot Segmentation of Historical Maps via Linear Probing of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2506.21826v1
- Date: Fri, 27 Jun 2025 00:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.034857
- Title: Few-Shot Segmentation of Historical Maps via Linear Probing of Vision Foundation Models
- Title(参考訳): 視覚基礎モデルの線形探索による歴史地図の断片化
- Authors: Rafael Sterzinger, Marco Peer, Robert Sablatnig,
- Abstract要約: 本稿では,歴史的地図の断片化をシンプルかつ効果的に行う手法を提案する。
大規模視覚基盤モデルのリッチなセマンティック埋め込みとパラメータ効率の微調整を併用する。
本手法は,手動アノテーションの必要性を大幅に低減しつつ,多様な歴史地図の正確なセグメンテーションを可能にする。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As rich sources of history, maps provide crucial insights into historical changes, yet their diverse visual representations and limited annotated data pose significant challenges for automated processing. We propose a simple yet effective approach for few-shot segmentation of historical maps, leveraging the rich semantic embeddings of large vision foundation models combined with parameter-efficient fine-tuning. Our method outperforms the state-of-the-art on the Siegfried benchmark dataset in vineyard and railway segmentation, achieving +5% and +13% relative improvements in mIoU in 10-shot scenarios and around +20% in the more challenging 5-shot setting. Additionally, it demonstrates strong performance on the ICDAR 2021 competition dataset, attaining a mean PQ of 67.3% for building block segmentation, despite not being optimized for this shape-sensitive metric, underscoring its generalizability. Notably, our approach maintains high performance even in extremely low-data regimes (10- & 5-shot), while requiring only 689k trainable parameters - just 0.21% of the total model size. Our approach enables precise segmentation of diverse historical maps while drastically reducing the need for manual annotations, advancing automated processing and analysis in the field. Our implementation is publicly available at: https://github.com/RafaelSterzinger/few-shot-map-segmentation.
- Abstract(参考訳): 歴史の豊富な情報源として、地図は歴史的変化に関する重要な洞察を提供するが、その多様な視覚的表現と限られた注釈付きデータは、自動化された処理に重大な課題をもたらす。
本稿では,大規模な視覚基盤モデルのリッチなセマンティック埋め込みとパラメータ効率の良い微調整を併用した,歴史地図の断片化のための簡易かつ効果的な手法を提案する。
本手法は,10ショットシナリオでmIoUが5%,+13%向上し,さらに5ショット設定で約20%向上した。
さらに、ICDAR 2021コンペティションデータセットでは、この形状に敏感なメートル法に最適化されていないにもかかわらず、ブロックセグメンテーションの平均PQが67.3%に達した。
特に,本手法では,モデルサイズ全体の0.21%である689kのトレーニング可能なパラメータしか必要とせず,極めて低データのレギュレーション(10ショットと5ショット)においても高いパフォーマンスを維持している。
本手法は,手動アノテーションの必要性を大幅に低減し,現場における自動処理や解析の進歩を図りながら,多様な歴史地図の正確なセグメンテーションを可能にする。
私たちの実装は、https://github.com/RafaelSterzinger/few-shot-map-segmentation.comで公開されています。
関連論文リスト
- Semantic Segmentation for Sequential Historical Maps by Learning from Only One Map [0.4915744683251151]
深層学習に基づくセマンティックセグメンテーションを用いたデジタル化の自動化手法を提案する。
このプロセスにおける重要な課題は、ディープニューラルネットワークのトレーニングに必要な地味なアノテーションの欠如である。
モデル微調整のための弱教師付き年齢追跡戦略を導入する。
論文 参考訳(メタデータ) (2025-01-03T14:55:22Z) - Self-supervised Video Instance Segmentation Can Boost Geographic Entity Alignment in Historical Maps [16.35356981558991]
ビデオ・インスタンス・セグメンテーション(VIS)を用いた歴史的地図における地理的実体のセグメンテーションとアソシエーションを組み合わせた新しいアプローチを提案する。
この課題を軽減するために,歴史地図上でのVIS性能を向上させる自己教師付き学習(SSL)技術について検討する。
論文 参考訳(メタデータ) (2024-11-26T13:31:51Z) - MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps [6.414068793245697]
我々は,パラメータ効率のよい微調整戦略であるMapSAMを紹介した。
具体的には、画像エンコーダにドメイン固有の知識を統合するために、Weight-Decomposed Low-Rank Adaptation (DoRA) を用いる。
手動入力を必要としない自動プロンプト生成プロセスを開発した。
論文 参考訳(メタデータ) (2024-11-11T13:18:45Z) - Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios [49.1574468325115]
実世界の応用性の観点から,5つの最先端合成手法の有用性を評価した。
我々は、GPS追跡タクシーのような細粒度都市の動きを符号化するいわゆる旅行データに焦点を当てる。
あるモデルは妥当な時間内にデータを生成することができず、別のモデルはマップマッチングの要件を満たすためにあまりに多くのジャンプを生成する。
論文 参考訳(メタデータ) (2024-07-03T16:08:05Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - Robust Self-Tuning Data Association for Geo-Referencing Using Lane Markings [44.4879068879732]
本稿では,データアソシエーションにおけるあいまいさを解消するための完全なパイプラインを提案する。
その中核は、測定のエントロピーに応じて探索領域に適応する堅牢な自己調整データアソシエーションである。
ドイツ・カールスルーエ市周辺の都市・農村のシナリオを実データとして評価した。
論文 参考訳(メタデータ) (2022-07-28T12:29:39Z) - PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。
1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。
AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文 参考訳(メタデータ) (2022-04-21T23:01:21Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - A Comprehensive Comparison of End-to-End Approaches for Handwritten
Digit String Recognition [21.522563264752577]
我々は,HDSR問題,特にオブジェクト検出とシーケンス・ツー・シーケンス表現に基づく2つの分野において,様々なエンドツーエンドアプローチを評価した。
以上の結果から,Yoloモデルとセグメント化のないモデルでは,パイプラインが短くなるという利点があることがわかった。
論文 参考訳(メタデータ) (2020-10-29T19:38:08Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。