論文の概要: CR-JEPA: Cross-Modal Joint-Embedding Predictive Learning for Remote Sensing Image Retrieval
- arxiv url: http://arxiv.org/abs/2606.00706v2
- Date: Sat, 06 Jun 2026 17:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 18:11:02.397015
- Title: CR-JEPA: Cross-Modal Joint-Embedding Predictive Learning for Remote Sensing Image Retrieval
- Title(参考訳): CR-JEPA:リモートセンシング画像検索のためのクロスプラットフォーム共同埋め込み予測学習
- Authors: Md Aminur Hossain, Ayush V. Patel, Nitant Dube, Biplab Banerjee,
- Abstract要約: クロスモーダルなリモートセンシング画像検索は、異質なセンシングモダリティをまたいだセマンティックなシーンの検索を目的としている。
両モードリモートセンシング検索のためのクロスモーダル検索統合埋め込み予測アーキテクチャCR-JEPAを提案する。
- 参考スコア(独自算出の注目度): 17.886004315444357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal remote sensing image retrieval aims to retrieve semantically related scenes across heterogeneous sensing modalities. This remains challenging because paired observations may differ substantially in imaging physics, spatial resolution, spectral configuration, and visual appearance. Moreover, a single retrieval projection trained with one objective may be insufficient to jointly support cross-modal semantic alignment and same-modal neighbourhood preservation. We propose CR-JEPA, a Cross-modal Retrieval Joint-Embedding Predictive Architecture for dual-modality remote sensing retrieval. The model uses modality-specific stems, a shared transformer trunk, and JEPA-style predictive objectives to estimate masked latent target features within and across modalities. Inspired by LeJEPA, we apply Sketched Isotropic Gaussian Regularization to raw retrieval projections to stabilize embeddings and mitigate collapse. CR-JEPA further employs a decoupled-head design with a unified retrieval head for same-modal retrieval and a cross-modal retrieval head for cross-modal search. We evaluate CR-JEPA on BEN-14K, CBRSIR_VS, and DSRSID. On BEN-14K, CR-JEPA improves S1 to S2 retrieval from 61.23% to 75.82% and S2 to S1 retrieval from 63.73% to 75.40% over X-JEPA, while also achieving competitive same-modal retrieval with fewer parameters.
- Abstract(参考訳): クロスモーダルなリモートセンシング画像検索は、異質なセンシングモダリティをまたいだセマンティックなシーンの検索を目的としている。
なぜなら、ペア化された観測は、画像物理学、空間分解能、スペクトル構成、視覚的外観において大きく異なる可能性があるからである。
さらに、一つの目的で訓練された単一の検索予測は、クロスモーダルなセマンティックアライメントと同モーダルな近隣保存を共同で支援するには不十分である。
両モードリモートセンシング検索のためのクロスモーダル検索統合埋め込み予測アーキテクチャCR-JEPAを提案する。
このモデルでは、モダリティ固有の幹、共有トランスフォーマートランク、JEPAスタイルの予測目標を使用して、モダリティ内およびモダリティ間のマスク付き潜在目標特徴を推定する。
LeJEPAにインスパイアされたSketched Isotropic Gaussian Regularizationを生の探索予測に適用し,埋め込みの安定化と崩壊の緩和を図る。
CR-JEPAはさらに、同モード検索のための統一検索ヘッドと、クロスモーダル検索のためのクロスモーダル検索ヘッドを備えた分離ヘッド設計を採用する。
BEN-14K,CBRSIR_VS,DSRSIDを用いたCR-JEPAの評価を行った。
BEN-14Kでは、CR-JEPAはS1からS2への検索を61.23%から75.82%に改善し、S2からS1への検索を63.73%から75.40%に改善した。
関連論文リスト
- HQ-JEPA: Hybrid Quantum Joint-Embedding Predictive Architecture for Cross-Modal Remote Sensing Representation Learning [17.65267962254814]
HQ-JEPAは、クロスモーダルリモートセンシング表現学習のためのハイブリッド量子古典型共同埋め込み予測アーキテクチャである。
その結果、HQ-JEPAは、強力な自己監視・リモートセンシング基盤モデルベースラインよりも、競争力があり、しばしば優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2026-05-29T09:37:35Z) - Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration [3.0222726254970174]
純粋なモデルに基づくアプローチは、構造化された不確実性推定を提供するが、適応的なポリシー学習を欠いている。
本稿では,このギャップに対処するためのハイブリッドな信念強化学習フレームワークを提案する。
その結果、累積報酬は10.8%上昇し、ベースラインよりも38%早く収束した。
論文 参考訳(メタデータ) (2026-03-04T00:00:34Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification [7.7794453452329]
光学・合成開口レーダ(SAR)画像間のReID(re-modal ship re-identification)は、海洋情報と監視において重要で未発見の課題として浮上している。
我々は,光-SARモダリティギャップを緩和し,光-SARクロスモーダル船ReIDのためのモダリティ-一貫性特徴学習を実現するための新しいフレームワークであるMOSを提案する。
論文 参考訳(メタデータ) (2025-12-03T03:23:19Z) - iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval [11.105541122596003]
REJEPA(Retrieval with Joint-Embedding Predictive Architecture)は、RS-CBIR用に設計された革新的な自己管理型フレームワークである。
空間的に分散したコンテキストトークンエンコーディングを使用して、ターゲットトークンの抽象表現を予測する。
ピクセル再構成ベースラインと比較して計算複雑性を40-60%削減する。
論文 参考訳(メタデータ) (2025-04-04T04:59:10Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared
Person Re-Identification [102.89434996930387]
VI-ReIDは、暗い環境での単一モダリティ人物ReIDの制限を突破し、クロスモダリティ歩行者のイメージを一致させることを目指しています。
既存の作品は、さまざまな2ストリームアーキテクチャを手動で設計して、モダリティ固有およびモダリティシャーブル表現を別々に学習する。
CM-NAS(Cross-Modality Neural Architecture Search)という手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T07:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。