論文の概要: Are Pretrained Image Matchers Good Enough for SAR-Optical Satellite Registration?
- arxiv url: http://arxiv.org/abs/2604.10217v2
- Date: Tue, 14 Apr 2026 17:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.327045
- Title: Are Pretrained Image Matchers Good Enough for SAR-Optical Satellite Registration?
- Title(参考訳): SAR-Optical Satellite Registrationのための事前トレーニング画像マッチングは十分か?
- Authors: Isaac Corley, Alex Stoken, Gabriele Berton,
- Abstract要約: クロスモーダル光SAR登録はリモートセンシングによる災害応答のボトルネックとなる。
現代の画像マーカは、ほとんど自然画像ドメインでベンチマークされる。
- 参考スコア(独自算出の注目度): 7.519268719195278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal optical-SAR (Synthetic Aperture Radar) registration is a bottleneck for disaster-response via remote sensing, yet modern image matchers are developed and benchmarked almost exclusively on natural-image domains. We evaluate twenty-four pretrained matcher families--in a zero-shot setting with no fine-tuning or domain adaptation on satellite or SAR data--on SpaceNet9 and two additional cross-modal benchmarks under a deterministic protocol with tiled large-image inference, robust geometric filtering, and tie-point-grounded metrics. Our results reveal asymmetric transfer--matchers with explicit cross-modal training do not uniformly outperform those without it. While XoFTR (trained for visible-thermal matching) and RoMa achieve the lowest reported mean error at $3.0$ px on the labeled SpaceNet9 training scenes, RoMa achieves this without any cross-modal training, and MatchAnything-ELoFTR ($3.4$ px)--trained on synthetic cross-modal pairs--matches closely, suggesting (as a working hypothesis) that foundation-model features (DINOv2) may contribute to modality invariance that partially substitutes for explicit cross-modal supervision. 3D-reconstruction matchers (MASt3R, DUSt3R), which are not designed for traditional 2D image matching, are highly protocol-sensitive and remain fragile under default settings. Deployment protocol choices (geometry model, tile size, inlier gating) shift accuracy by up to $33\times$ for a single matcher, sometimes exceeding the effect of swapping matchers entirely within the evaluated sweep--affine geometry alone reduces mean error from $12.34$ to $9.74$ px. These findings inform both practical deployment of existing matchers and future matcher design for cross-modal satellite registration.
- Abstract(参考訳): クロスモーダル光SAR (Synthetic Aperture Radar) 登録はリモートセンシングによる災害応答のボトルネックとなっているが、現代の画像マーカは、ほぼ自然画像領域で開発され、ベンチマークされている。
衛星データやSARデータに対して微調整やドメイン適応を行わないゼロショット設定で24種類の事前訓練されたマッカーファミリーを評価する。SpaceNet9と2つの追加のクロスモーダルベンチマークを,大画像推論,ロバストな幾何フィルタリング,タイポイントグラウンドメトリクスを用いて決定的プロトコルの下で評価する。
以上の結果より, 明示的なクロスモーダルトレーニングを施した非対称なトランスファー・マーチャーは, 非対称なトランスファー・マーチャーよりも一様ではないことが明らかとなった。
XoFTR(可視熱マッチングのためのトレーニング)とRoMaはラベル付きSpaceNet9トレーニングシーンで最低平均誤差が3.0$ pxと報告されているが、RoMaはクロスモーダルトレーニングなしでこれを達成する。
従来の2D画像マッチング用に設計されていない3D再構成マッチング(MASt3R, DUSt3R)は、プロトコルに敏感で、デフォルト設定下でも脆弱である。
配置プロトコルの選択(ジオメトリモデル、タイルサイズ、イリヤゲーティング)は、1つのマッカーに対して最大33\times$の精度をシフトし、時には、評価されたスイープ・アフィン幾何だけでマーカを完全に交換する効果を超え、平均誤差を12.34$から9.74$pxに下げる。
これらの結果は、既存のマーカの実用的展開と、クロスモーダル衛星登録のための将来のマーカ設計の両方を示唆している。
関連論文リスト
- Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration [22.360139236823155]
CrossI2Pは、クロスモーダル学習と2段階の登録を単一のエンドツーエンドパイプラインで統合する、自己教師型フレームワークである。
我々は、CrossI2Pが、KITTI Odometryベンチマークで23.7%、nuScenesで37.9%、最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-19T11:29:22Z) - ANROT-HELANet: Adverserially and Naturally Robust Attention-Based Aggregation Network via The Hellinger Distance for Few-Shot Classification [4.283774189998499]
ANROT-HELANet, Adversarially and Naturally RObusT Hellinger Aggregation Networkを紹介する。
提案手法は, 逆向きかつ自然に頑健なヘリンジャー距離に基づく特徴クラスアグリゲーション方式を実装している。
FIDスコアは2.75で、従来のVAE (3.43) とWAE (3.38) よりも優れている。
論文 参考訳(メタデータ) (2025-09-14T11:44:43Z) - Semi-supervised Multiscale Matching for SAR-Optical Image [5.25009884148204]
SAR-光画像マッチングのための半教師付きマルチスケールマッチング(S2M2-SAR)を提案する。
具体的には、未ラベルのSAR-光画像対に擬似接地構造類似性熱マップを擬似ラベル付けする。
また,モダリティ間の相互独立損失をトレーニングしたクロスモーダル機能拡張モジュールも導入した。
論文 参考訳(メタデータ) (2025-08-11T09:55:39Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。
AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。
ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文 参考訳(メタデータ) (2023-07-28T08:05:36Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。