論文の概要: TAR: Text Semantic Assisted Cross-modal Image Registration Framework for Optical and SAR Images
- arxiv url: http://arxiv.org/abs/2605.12064v1
- Date: Tue, 12 May 2026 12:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.863473
- Title: TAR: Text Semantic Assisted Cross-modal Image Registration Framework for Optical and SAR Images
- Title(参考訳): TAR:光とSAR画像のためのテキストセマンティック支援クロスモーダル画像登録フレームワーク
- Authors: Zhuoyu Cai, Dou Quan, Ning Huyan, Pei He, Shuang Wang, Licheng Jiao,
- Abstract要約: 本稿では,光学およびSAR画像のためのテキストセマンティック支援型クロスモーダル画像登録フレームワークTARを提案する。
TARは、リモートセンシングシーンや土地被覆カテゴリからのテキストセマンティクスを活用して、モダリティギャップを緩和する。
いくつかの最先端手法よりも強いマッチング性能を実現し、大きな幾何学的変形の下では大きな利得が得られる。
- 参考スコア(独自算出の注目度): 48.9420428682499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning-based methods can capture shared features from optical and synthetic aperture radar (SAR) images for spatial alignment. However, optical-SAR registration remains challenging under large geometric deformations, because the model needs to simultaneously handle cross-modal appearance discrepancies and complex spatial transformations. To address this issue, this paper proposes a text semantic-assisted cross-modal image registration framework, named TAR, for optical and SAR images. TAR exploits text semantic priors from remote sensing scenes and land-cover categories to alleviate the modality gap and enhance cross-modal feature learning. TAR consists of three components: a multi-scale visual feature learning (MSFL) module, a text-assisted feature enhancement (TAFE) module, and a coarse-to-fine dense matching (CFDM) module. MSFL extracts multi-scale visual features from optical and SAR images. TAFE constructs text descriptors related to remote sensing scenes and land-cover objects, and uses a frozen RemoteCLIP text encoder to extract text features. These text features are introduced through visual-text interaction to enhance high-level visual features for more reliable coarse matching. CFDM then establishes coarse correspondences based on the enhanced high-level features and refines the matched locations using low-level features. Experimental results on cross-modal remote sensing images demonstrate the effectiveness of TAR, which achieves stronger matching performance than several state-of-the-art methods and yields significant gains under large geometric deformations.
- Abstract(参考訳): 既存のディープラーニングベースの手法では、空間アライメントのための光学および合成開口レーダ(SAR)画像から共有された特徴をキャプチャすることができる。
しかし、光学SARの登録は、異方性や複雑な空間変換を同時に扱う必要があるため、大きな幾何学的変形の下では困難である。
そこで本研究では,光学およびSAR画像のためのテキストセマンティック支援型クロスモーダル画像登録フレームワークTARを提案する。
TARは、リモートセンシングシーンや土地被覆カテゴリからのテキストセマンティックな事前情報を活用して、モダリティギャップを緩和し、モーダル横断的特徴学習を強化する。
TARは、マルチスケール視覚特徴学習(MSFL)モジュール、テキストアシスト機能拡張(TAFE)モジュール、粗粒密マッチング(CFDM)モジュールの3つのコンポーネントで構成されている。
MSFLは光学画像とSAR画像からマルチスケールの視覚特徴を抽出する。
TAFEはリモートセンシングシーンとランドカバーオブジェクトに関連するテキスト記述子を構築し、凍結されたRemoteCLIPテキストエンコーダを使用してテキストの特徴を抽出する。
これらのテキスト機能は、より信頼性の高い粗いマッチングのために高レベルな視覚的特徴を高めるために、ビジュアル・テキスト・インタラクションを通じて導入される。
CFDMは拡張された高次特徴に基づいて粗い対応を確立し、低次特徴を用いて一致した位置を洗練する。
クロスモーダルリモートセンシング画像による実験結果から, 幾つもの最先端手法よりも強いマッチング性能を実現し, 大規模な幾何学的変形下では有意な利得が得られるTARの有効性が示された。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.13782704236074]
視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues [20.587249765287183]
Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。
FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。
PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-03-29T07:28:50Z) - Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文 参考訳(メタデータ) (2023-12-02T17:32:17Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。