論文の概要: Multi-Spectral Remote Sensing Image Retrieval Using Geospatial
Foundation Models
- arxiv url: http://arxiv.org/abs/2403.02059v1
- Date: Mon, 4 Mar 2024 14:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:38:20.604407
- Title: Multi-Spectral Remote Sensing Image Retrieval Using Geospatial
Foundation Models
- Title(参考訳): 地理空間基礎モデルを用いたマルチスペクトルリモートセンシング画像検索
- Authors: Benedikt Blumenstiel, Viktoria Moor, Romeo Kienzler, Thomas
Brunschwiler
- Abstract要約: この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に使用することを提案している。
検索タスクに2つのデータセットを導入し、高い性能を観察する。
Prithviは6つのバンドを処理し、平均精度はBigEarthNet-43で97.62%、フォレストNet-12で44.51%に達する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image retrieval enables an efficient search through vast amounts of satellite
imagery and returns similar images to a query. Deep learning models can
identify images across various semantic concepts without the need for
annotations. This work proposes to use Geospatial Foundation Models, like
Prithvi, for remote sensing image retrieval with multiple benefits: i) the
models encode multi-spectral satellite data and ii) generalize without further
fine-tuning. We introduce two datasets to the retrieval task and observe a
strong performance: Prithvi processes six bands and achieves a mean Average
Precision of 97.62\% on BigEarthNet-43 and 44.51\% on ForestNet-12,
outperforming other RGB-based models. Further, we evaluate three compression
methods with binarized embeddings balancing retrieval speed and accuracy. They
match the retrieval speed of much shorter hash codes while maintaining the same
accuracy as floating-point embeddings but with a 32-fold compression. The code
is available at https://github.com/IBM/remote-sensing-image-retrieval.
- Abstract(参考訳): 画像検索は、大量の衛星画像を通して効率的な検索を可能にし、類似した画像をクエリーに返す。
ディープラーニングモデルは、アノテーションを必要とせずに、さまざまな意味概念にわたってイメージを識別できる。
この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に利用することを提案する。
一 マルチスペクトル衛星データを符号化するモデル及び
二 更なる微調整なしに一般化すること。
prithviは6バンドを処理し、bigearthnet-43では97.62\%、forestnet-12では44.51\%の平均精度を達成し、他のrgbベースのモデルよりも優れています。
さらに,検索速度と精度のバランスを両立した組込みによる3つの圧縮手法を評価した。
これらは、浮動小数点埋め込みと同じ精度を維持しながら、より短いハッシュコードの検索速度と32倍の圧縮で一致した。
コードはhttps://github.com/ibm/remote-sensing-image-retrievalで入手できる。
関連論文リスト
- Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Deep supervised hashing for fast retrieval of radio image cubes [5.688539343057255]
ディープハッシュアルゴリズムは、コンピュータビジョンとマルチメディアの分野における画像検索タスクにおいて効率的であることが示されている。
本研究では,大規模データベース内の類似画像を高速に検索するために,ディープハッシュを利用する。
実験により, 類似した無線画像の検索と検索を効率よく, 大規模に行うことができることを示した。
論文 参考訳(メタデータ) (2023-09-02T12:59:52Z) - A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval [0.0]
ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
論文 参考訳(メタデータ) (2023-03-15T07:01:44Z) - Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB
Images [7.428474910083337]
本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、アノテートされた画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
実験の結果,本手法は平均整合精度で20時までに非剛体物体の実像に対して,最先端のキーポイント検出器よりも優れていた。
論文 参考訳(メタデータ) (2022-12-13T11:59:09Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Asymmetric Hash Code Learning for Remote Sensing Image Retrieval [22.91678927865952]
リモートセンシング画像検索のための非対称ハッシュ符号学習(AHCL)という新しい深層ハッシュ法を提案する。
AHCLは、クエリとデータベースイメージのハッシュコードを非対称に生成する。
3つの公開データセットに対する実験結果から,提案手法は精度と効率の点で対称法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:00:38Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。