論文の概要: REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval
- arxiv url: http://arxiv.org/abs/2504.03169v1
- Date: Fri, 04 Apr 2025 04:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:18.536700
- Title: REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval
- Title(参考訳): REJEPA: 効率的なリモートセンシング画像検索のための新しい統合組込み予測アーキテクチャ
- Authors: Shabnam Choudhury, Yash Salunkhe, Sarthak Mehrotra, Biplab Banerjee,
- Abstract要約: REJEPA(Retrieval with Joint-Embedding Predictive Architecture)は、RS-CBIR用に設計された革新的な自己管理型フレームワークである。
空間的に分散したコンテキストトークンエンコーディングを使用して、ターゲットトークンの抽象表現を予測する。
ピクセル再構成ベースラインと比較して計算複雑性を40-60%削減する。
- 参考スコア(独自算出の注目度): 11.105541122596003
- License:
- Abstract: The rapid expansion of remote sensing image archives demands the development of strong and efficient techniques for content-based image retrieval (RS-CBIR). This paper presents REJEPA (Retrieval with Joint-Embedding Predictive Architecture), an innovative self-supervised framework designed for unimodal RS-CBIR. REJEPA utilises spatially distributed context token encoding to forecast abstract representations of target tokens, effectively capturing high-level semantic features and eliminating unnecessary pixel-level details. In contrast to generative methods that focus on pixel reconstruction or contrastive techniques that depend on negative pairs, REJEPA functions within feature space, achieving a reduction in computational complexity of 40-60% when compared to pixel-reconstruction baselines like Masked Autoencoders (MAE). To guarantee strong and varied representations, REJEPA incorporates Variance-Invariance-Covariance Regularisation (VICReg), which prevents encoder collapse by promoting feature diversity and reducing redundancy. The method demonstrates an estimated enhancement in retrieval accuracy of 5.1% on BEN-14K (S1), 7.4% on BEN-14K (S2), 6.0% on FMoW-RGB, and 10.1% on FMoW-Sentinel compared to prominent SSL techniques, including CSMAE-SESD, Mask-VLM, SatMAE, ScaleMAE, and SatMAE++, on extensive RS benchmarks BEN-14K (multispectral and SAR data), FMoW-RGB and FMoW-Sentinel. Through effective generalisation across sensor modalities, REJEPA establishes itself as a sensor-agnostic benchmark for efficient, scalable, and precise RS-CBIR, addressing challenges like varying resolutions, high object density, and complex backgrounds with computational efficiency.
- Abstract(参考訳): リモートセンシング画像アーカイブの急速な拡張は、コンテンツベース画像検索(RS-CBIR)のための強力で効率的な技術開発を必要とする。
本稿では、一元的RS-CBIRのための革新的な自己管理フレームワークであるREJEPA(Retrieval with Joint-Embedding Predictive Architecture)を提案する。
REJEPAは、空間的に分散されたコンテキストトークンエンコーディングを使用して、ターゲットトークンの抽象表現を予測し、高レベルのセマンティック特徴を効果的にキャプチャし、不要なピクセルレベルの詳細を取り除く。
負のペアに依存する画素再構成や対照的な手法に焦点を当てた生成手法とは対照的に、REJEPAは特徴空間内で機能し、Masked Autoencoders (MAE)のような画素再構成ベースラインと比較して計算複雑性を40-60%削減する。
強力で多様な表現を保証するため、REJEPAは可変不変共分散規則化(VICReg)を導入し、特徴多様性の促進と冗長性の低減によってエンコーダの崩壊を防ぐ。
CSMAE-SESD, Mask-VLM, SatMAE, ScaleMAE, SatMAE++などの著名なSSL技術と比較して, BEN-14K (S1) で5.1%, BEN-14K (S2) で7.4%, FMoW-RGBで6.0%, FMoW-Sentinelで10.1%, RSベンチマークでBEN-14K (Multispectral and SAR data), FMoW-RGB, FMoW-Sentinel で5.1%の精度向上が示されている。
センサモダリティ間の効果的な一般化を通じて、REJEPAは、様々な解像度、高いオブジェクト密度、計算効率の複雑な背景といった課題に対処する、効率的でスケーラブルで正確なRS-CBIRのための、センサーに依存しないベンチマークとして、自らを確立している。
関連論文リスト
- Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval [16.995114000869833]
グローバルな情報とローカルな情報を活用するクロスモーダル・プレアライメント手法であるCMPAGLを提案する。
我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。
RSICDとRSITMDを含む4つのデータセットの実験はCMPAGLの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-22T03:28:55Z) - Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、利用可能なRSデータセットを収集し、排他的、スライシング、復号化を通じてそれらを処理することで、OptoRS-13Mという高品質なデータセットをキュレートした。
実験により,OCR-13Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - LaRE$^2$: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection [31.009153793849183]
ラテント再構成誤差 (LaRE) は, 画像検出のための遅延空間における最初のリコンストラクションエラーに基づく特徴である。
LaREを利用するために,LaREによって誘導される画像の特徴を洗練し,特徴の識別性を向上するError-Guided Feature Refinement Module (EGRE)を提案する。
我々のEGREはアライメント・then-refine機構を利用しており、空間的・チャネル的な視点から生成画像を検出するために画像特徴を効果的に洗練する。
論文 参考訳(メタデータ) (2024-03-26T07:55:16Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Efficient Model Agnostic Approach for Implicit Neural Representation
Based Arbitrary-Scale Image Super-Resolution [5.704360536038803]
単一の画像超解像(SISR)は、主に深層畳み込みネットワークによって大きく進歩した。
従来のネットワークは、画像を一定のスケールにスケールアップすることに限定されており、任意のスケールのイメージを生成するために暗黙の神経機能を利用することになる。
我々は,任意のスケールで超解像を実現する,新しい,効率的なフレームワークであるMixture of Experts Implicit Super-Resolution(MoEISR)を導入する。
論文 参考訳(メタデータ) (2023-11-20T05:34:36Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image
Super-Resolution [15.694407977871341]
実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に重点を置いている。
既存の手法は、分解レベルが異なる低解像度(LR)画像を強化するために重いSRモデルに依存している。
本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。
論文 参考訳(メタデータ) (2022-12-15T04:34:57Z) - Efficient and Degradation-Adaptive Network for Real-World Image
Super-Resolution [28.00231586840797]
実世界の画像超解像(Real-ISR)は、実世界の画像の未知の複雑な劣化のために難しい課題である。
近年のReal-ISRの研究は、画像劣化空間をモデル化することによって大きな進歩を遂げている。
本稿では,各入力画像の劣化を推定してパラメータを適応的に指定する,効率的な劣化適応型超解像ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-27T05:59:13Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z) - Lightweight image super-resolution with enhanced CNN [82.36883027158308]
強い表現力を持つ深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像(SISR)において印象的な性能を達成した
情報抽出・拡張ブロック(IEEB)、再構築ブロック(RB)、情報精製ブロック(IRB)の3つの連続したサブブロックを持つ軽量拡張SR CNN(LESRCNN)を提案する。
IEEBは階層的低分解能(LR)特徴を抽出し、SISRの深い層上の浅い層の記憶能力を高めるために、得られた特徴を段階的に集約する。
RBはグローバルに拡散することで低周波特徴を高周波特徴に変換する
論文 参考訳(メタデータ) (2020-07-08T18:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。