論文の概要: Exploring DINO: Emergent Properties and Limitations for Synthetic
Aperture Radar Imagery
- arxiv url: http://arxiv.org/abs/2310.03513v1
- Date: Thu, 5 Oct 2023 12:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 16:11:59.561610
- Title: Exploring DINO: Emergent Properties and Limitations for Synthetic
Aperture Radar Imagery
- Title(参考訳): dinoを探索する:合成開口レーダ画像の創発的特性と限界
- Authors: Joseph A. Gallego-Mejia, Anna Jungbluth, Laura Mart\'inez-Ferrer, Matt
Allen, Francisco Dorr, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an
- Abstract要約: 本研究では,No Labels(DINO)アルゴリズムによる自己蒸留の創発的特性と合成開口レーダ(SAR)画像への応用について検討する。
我々は、ラベルのないSARデータを用いて視覚変換器(ViT)ベースのDINOモデルを事前訓練し、その後、高解像度のランドカバーマップを予測するためにモデルを微調整する。
本稿では,VTアテンションマップがリモートセンシングの本質的な価値を保ち,他のアルゴリズムに有用なインプットを提供することを示す。
- 参考スコア(独自算出の注目度): 5.057850174013128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) models have recently demonstrated remarkable
performance across various tasks, including image segmentation. This study
delves into the emergent characteristics of the Self-Distillation with No
Labels (DINO) algorithm and its application to Synthetic Aperture Radar (SAR)
imagery. We pre-train a vision transformer (ViT)-based DINO model using
unlabeled SAR data, and later fine-tune the model to predict high-resolution
land cover maps. We rigorously evaluate the utility of attention maps generated
by the ViT backbone, and compare them with the model's token embedding space.
We observe a small improvement in model performance with pre-training compared
to training from scratch, and discuss the limitations and opportunities of SSL
for remote sensing and land cover segmentation. Beyond small performance
increases, we show that ViT attention maps hold great intrinsic value for
remote sensing, and could provide useful inputs to other algorithms. With this,
our work lays the ground-work for bigger and better SSL models for Earth
Observation.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは最近、画像セグメンテーションを含む様々なタスクで顕著なパフォーマンスを示している。
本研究では,No Labels(DINO)アルゴリズムによる自己蒸留の創発的特性と合成開口レーダ(SAR)画像への応用について検討する。
非ラベルsarデータを用いた視覚トランスフォーマ(vit)ベースのdinoモデルを事前学習し,その後,高精度土地被覆マップの予測のためにモデルを微調整した。
本稿では,ViTバックボーンが生成したアテンションマップの有用性を厳格に評価し,モデルのトークン埋め込み空間と比較する。
我々は,スクラッチからのトレーニングと比較して,モデル性能の微妙な向上を観察し,リモートセンシングとランドカバーセグメンテーションにおけるSSLの限界と可能性について議論する。
少ない性能向上を超えて,vitアテンションマップはリモートセンシングに非常に本質的な価値を持ち,他のアルゴリズムに有用なインプットを提供することができることを示した。
これでわれわれの研究は、地球観測のためのより大型で優れたSSLモデルの土台を築いた。
関連論文リスト
- Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery [16.522544814241495]
本研究は、自動運転車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出のための特別なモデルはまだリモートセンシングでは未開発である。
本研究では,高精細リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティクスモデルを比較した。
論文 参考訳(メタデータ) (2024-10-08T06:24:15Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Multi-View Radar Semantic Segmentation [3.2093811507874768]
自動車用レーダーは、周囲の物体の特性を測定する安価なアクティブセンサーである。
レーダー生データのサイズと複雑さのため、シーン理解にはほとんど使われない。
我々は,複数の新しいアーキテクチャとそれに伴う損失を提案し,レンジアングル・ドップラーレーダテンソルの複数の"ビュー"を分析し,意味的にセグメンテーションする。
論文 参考訳(メタデータ) (2021-03-30T09:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。