論文の概要: Multi-modal, multi-scale representation learning for satellite imagery analysis just needs a good ALiBi
- arxiv url: http://arxiv.org/abs/2604.10347v1
- Date: Sat, 11 Apr 2026 20:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.969657
- Title: Multi-modal, multi-scale representation learning for satellite imagery analysis just needs a good ALiBi
- Title(参考訳): 衛星画像解析のためのマルチモーダル・マルチスケール表現学習には優れたALiBiが必要である
- Authors: Patrick Kage, Pavlos Andreadis,
- Abstract要約: 本稿では,地中サンプル距離の異なる画像パッチ間の関係に空間符号化バイアスを付与した線形バイアス変換器アテンション機構であるScale-ALiBiを提案する。
本稿では,3重コントラスト・再構成アーキテクチャを用いた高解像度・高解像度・低解像度SAR衛星画像データのデータセット上でのScale-ALiBiの実装について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models have been shown to be effective at processing satellite imagery into representations fit for downstream tasks, however, creating models which operate over multiple spatial resolutions and modes is challenging. This paper presents Scale-ALiBi, a linear bias transformer attention mechanism with a spatial encoding bias to relationships between image patches at different ground sample distance scales. We provide an implementation of Scale-ALiBi over a dataset of aligned high- and low-resolution optical and low-resolution SAR satellite imagery data using a triple-contrastive and reconstructive architecture, show an improvement on the GEO-Bench benchmark, and release the newly curated dataset publicly.
- Abstract(参考訳): 視覚基盤モデルは、下流のタスクに適した衛星画像の表現に効果的に処理できることが示されているが、複数の空間解像度とモードで動作するモデルを作成することは困難である。
本稿では,地中サンプル距離の異なる画像パッチ間の関係に空間符号化バイアスを付与した線形バイアス変換器アテンション機構であるScale-ALiBiを提案する。
本稿では,3重コントラスト・再構成アーキテクチャを用いた高分解能・低分解能SAR衛星画像データの整列データセット上でのScale-ALiBiの実装を行い,GEO-Benchベンチマークの改善を示し,新たに作成したデータセットを公開する。
関連論文リスト
- GDROS: A Geometry-Guided Dense Registration Framework for Optical-SAR Images under Large Geometric Transformations [24.22541638346487]
我々はGDROSを提案する。GDROSはグローバルなクロスモーダル画像の相互作用を利用したジオメトリ誘導型密度登録フレームワークである。
まず、CNN-Transformerハイブリッド特徴抽出モジュールを用いて、光学画像とSAR画像からクロスモーダルな深度特徴を抽出する。
次に、予測された高密度光流場を幾何学的に制約する最小二乗回帰(LSR)モジュールを実装した。
論文 参考訳(メタデータ) (2025-11-01T15:40:34Z) - Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Images [0.0]
我々は、SAR(Synthetic Aperture Radar)のモダリティに、オープンソースのテキスト・ツー・イメージ基盤モデルを適用する。
我々は,UNet拡散バックボーン,変分オートエンコーダ(VAE)およびテキストエンコーダの完全な微調整とパラメータ効率の低いローランド適応(LoRA)を比較した。
この結果から,テキストエンコーダと学習トークン埋め込みベストにLoRAを併用したハイブリッド戦略フルUNetチューニングが,SAR形状とテクスチャを保存できることが示唆された。
論文 参考訳(メタデータ) (2025-06-16T09:48:01Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Image-to-Height Domain Translation for Synthetic Aperture Sonar [3.2662392450935416]
本研究では,等方的および異方的テクスチャに関する集合幾何学に焦点をあてる。
集合幾何学の低放牧角度は、異方性テクスチャに対するソナーパスの配向と相まって、画像アライメントや他の多視点シーン理解フレームワークにとって重要な課題である。
論文 参考訳(メタデータ) (2021-12-12T19:53:14Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。