論文の概要: Cross-attention Spatio-temporal Context Transformer for Semantic
Segmentation of Historical Maps
- arxiv url: http://arxiv.org/abs/2310.12616v1
- Date: Thu, 19 Oct 2023 09:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:56:17.673434
- Title: Cross-attention Spatio-temporal Context Transformer for Semantic
Segmentation of Historical Maps
- Title(参考訳): 歴史的地図の意味セグメンテーションのための時空間トランスフォーマ
- Authors: Sidi Wu, Yizi Chen, Konrad Schindler, Lorenz Hurni
- Abstract要約: 歴史的地図は、現代の地球観測技術が生まれる前に、地球表面の有用な時間的情報を提供する。
データ依存不確実性として知られるアレタリック不確実性は、元の地図シートの描画/フェーディング欠陥に固有のものである。
より広い範囲で情報を集約する地図と時間的シーケンスを融合するU-based networkを提案する。
- 参考スコア(独自算出の注目度): 18.016789471815855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Historical maps provide useful spatio-temporal information on the Earth's
surface before modern earth observation techniques came into being. To extract
information from maps, neural networks, which gain wide popularity in recent
years, have replaced hand-crafted map processing methods and tedious manual
labor. However, aleatoric uncertainty, known as data-dependent uncertainty,
inherent in the drawing/scanning/fading defects of the original map sheets and
inadequate contexts when cropping maps into small tiles considering the memory
limits of the training process, challenges the model to make correct
predictions. As aleatoric uncertainty cannot be reduced even with more training
data collected, we argue that complementary spatio-temporal contexts can be
helpful. To achieve this, we propose a U-Net-based network that fuses
spatio-temporal features with cross-attention transformers (U-SpaTem),
aggregating information at a larger spatial range as well as through a temporal
sequence of images. Our model achieves a better performance than other
state-or-art models that use either temporal or spatial contexts. Compared with
pure vision transformers, our model is more lightweight and effective. To the
best of our knowledge, leveraging both spatial and temporal contexts have been
rarely explored before in the segmentation task. Even though our application is
on segmenting historical maps, we believe that the method can be transferred
into other fields with similar problems like temporal sequences of satellite
images. Our code is freely accessible at
https://github.com/chenyizi086/wu.2023.sigspatial.git.
- Abstract(参考訳): 歴史的地図は、現代の地球観測技術が登場する前に、地球表面の時空間情報を提供する。
地図から情報を抽出するために、近年広く普及したニューラルネットワークは、手作りの地図処理手法と退屈な手作業に取って代わった。
しかし、データ依存不確実性として知られるアレタリック不確実性は、元の地図シートの描画/スキャン/フェーディングの欠陥に固有のものであり、トレーニングプロセスの記憶限界を考慮して地図を小さなタイルに刈り込む際には、適切な予測を行うためにモデルに挑戦する。
より多くのトレーニングデータを収集しても,アレータリックな不確実性は低減できないため,相補的な時空間コンテキストが有用である,と論じる。
そこで本研究では,空間範囲の広い情報と,時間的画像のシーケンスを通じて,時空間の特徴を相互対応変換器(U-SpaTem)と融合するU-Netベースのネットワークを提案する。
我々のモデルは、時間的または空間的文脈を使用する他の状態または技術モデルよりも優れた性能を達成する。
純粋な視覚トランスフォーマーと比較して、私たちのモデルはより軽量で効果的です。
我々の知識を最大限に活用するために,空間的・時間的文脈の両面を利用したセグメンテーション作業は,これまでほとんど行われなかった。
本手法は歴史的地図のセグメント化に応用されているが,衛星画像の時間的順序などの類似の問題により,他の分野にも適用できると考えている。
私たちのコードはhttps://github.com/chenyizi086/wu.2023.sigspatial.gitで自由にアクセスできます。
関連論文リスト
- TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z) - REPLAY: Modeling Time-Varying Temporal Regularities of Human Mobility for Location Prediction over Sparse Trajectories [7.493786214342181]
位置予測のための時間変化の時間的規則性を把握するための一般RNNアーキテクチャ学習であるREPLAYを提案する。
特に、REPLAYは、情報の隠された過去の状態を探すために、スパース軌跡の距離を利用するだけでなく、時間変化の時間的規則性も許容する。
その結果、REPLAYは位置予測タスクにおいて、最先端の手法を7.7%から10.9%向上させることができた。
論文 参考訳(メタデータ) (2024-02-26T05:28:36Z) - PASTA: PArallel Spatio-Temporal Attention with spatial auto-correlation
gating for fine-grained crowd flow prediction [33.08230699138568]
空間的自己相関ゲーティングを備えたニューラルネットワークPArallel Spatioを導入する。
提案手法の構成要素は,空間的自己相関ゲーティング,マルチスケール残差ブロック,時間的注意ゲーティングモジュールである。
論文 参考訳(メタデータ) (2023-10-02T14:10:42Z) - Temporal Smoothness Regularisers for Neural Link Predictors [8.975480841443272]
TNTComplExのような単純な手法は、最先端の手法よりもはるかに正確な結果が得られることを示す。
また,2つの時間的リンク予測モデルに対する幅広い時間的平滑化正規化の影響についても検討した。
論文 参考訳(メタデータ) (2023-09-16T16:52:49Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。
本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。
大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文 参考訳(メタデータ) (2021-06-24T08:33:32Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Combining Deep Learning and Mathematical Morphology for Historical Map
Segmentation [22.050293193182238]
主要なマップ機能は、その後のテーマ分析の時間を通して検索および追跡することができる。
この研究の目的は、ベクトル化のステップ、すなわち、地図の画像から興味のある対象のベクトル形状を抽出することである。
特に,建物,建物ブロック,庭園,河川などのクローズドな形状検出に関心がある。
時間的進化を監視するためです
論文 参考訳(メタデータ) (2021-01-06T17:24:57Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。