論文の概要: SARFormer -- An Acquisition Parameter Aware Vision Transformer for Synthetic Aperture Radar Data
- arxiv url: http://arxiv.org/abs/2504.08441v1
- Date: Fri, 11 Apr 2025 11:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:47.510134
- Title: SARFormer -- An Acquisition Parameter Aware Vision Transformer for Synthetic Aperture Radar Data
- Title(参考訳): SARFormer -- 合成開口レーダデータのための視覚変換器の獲得パラメータ
- Authors: Jonathan Prexl, Michael Recla, Michael Schmitt,
- Abstract要約: 本研究では、1つまたは複数の合成開口レーダ(SAR)画像を処理するために設計された改良型ビジョントランスフォーマー(ViT)アーキテクチャを提案する。
本稿では,学習過程を著しくガイドする取得パラメータ符号化モジュールを提案する。
提案手法は, RMSEのベースラインモデルよりも最大17%向上する。
- 参考スコア(独自算出の注目度): 1.2926587870771544
- License:
- Abstract: This manuscript introduces SARFormer, a modified Vision Transformer (ViT) architecture designed for processing one or multiple synthetic aperture radar (SAR) images. Given the complex image geometry of SAR data, we propose an acquisition parameter encoding module that significantly guides the learning process, especially in the case of multiple images, leading to improved performance on downstream tasks. We further explore self-supervised pre-training, conduct experiments with limited labeled data, and benchmark our contribution and adaptations thoroughly in ablation experiments against a baseline, where the model is tested on tasks such as height reconstruction and segmentation. Our approach achieves up to 17% improvement in terms of RMSE over baseline models
- Abstract(参考訳): この原稿は、1つまたは複数の合成開口レーダ(SAR)画像を処理するために設計された、修正されたビジョントランスフォーマー(ViT)アーキテクチャであるSARFormerを紹介している。
本稿では,SARデータの複雑な画像形状を考慮し,学習過程,特に複数の画像の場合において,学習過程を著しくガイドする取得パラメータ符号化モジュールを提案する。
さらに、自己教師付き事前学習、ラベル付きデータによる実験の実施、ベースラインに対するアブレーション実験における貢献と適応の徹底的なベンチマーク、高さ再構成やセグメンテーションなどのタスクでモデルをテストする。
ベースラインモデルよりもRMSEの方が最大17%向上する。
関連論文リスト
- Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Deep-Learning-Based Single-Image Height Reconstruction from
Very-High-Resolution SAR Intensity Data [1.7894377200944511]
本稿では,リモートセンシングにおける他の重要なセンサモードである合成開口レーダ(SAR)データに対する,深層学習に基づく単一画像の高さ予測の初めての実演を示す。
SAR強度画像に対する畳み込みニューラルネットワーク(CNN)アーキテクチャの適用に加えて、トレーニングデータ生成のためのワークフローを提案する。
転送可能性に特に重点を置いているので、深層学習に基づく単一画像の高さ推定が可能であるだけでなく、目に見えないデータにかなりうまく転送可能であることを確認できます。
論文 参考訳(メタデータ) (2021-11-03T08:20:03Z) - Contrastive Multiview Coding with Electro-optics for SAR Semantic
Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。
従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。
いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-31T23:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。