Fugu-MT 論文翻訳(概要): GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement

論文の概要: GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement

arxiv url: http://arxiv.org/abs/2308.09624v1
Date: Fri, 18 Aug 2023 15:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 12:37:29.853969
Title: GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement
Title（参考訳）: geodtr+:幾何異方性による汎用クロスビュージオロカライズに向けて
Authors: Xiaohan Zhang, Xingyu Li, Waqas Sultani, Chen Chen, and Safwan Wshah
Abstract要約: Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。近年のCVGLベンチマークは顕著な進歩を遂げている。既存手法はいまだにクロスエリア評価におけるパフォーマンスの低下に悩まされている。視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
参考スコア（独自算出の注目度）: 20.346145927174373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-View Geo-Localization (CVGL) estimates the location of a ground image by matching it to a geo-tagged aerial image in a database. Recent works achieve outstanding progress on CVGL benchmarks. However, existing methods still suffer from poor performance in cross-area evaluation, in which the training and testing data are captured from completely distinct areas. We attribute this deficiency to the lack of ability to extract the geometric layout of visual features and models' overfitting to low-level details. Our preliminary work introduced a Geometric Layout Extractor (GLE) to capture the geometric layout from input features. However, the previous GLE does not fully exploit information in the input feature. In this work, we propose GeoDTR+ with an enhanced GLE module that better models the correlations among visual features. To fully explore the LS techniques from our preliminary work, we further propose Contrastive Hard Samples Generation (CHSG) to facilitate model training. Extensive experiments show that GeoDTR+ achieves state-of-the-art (SOTA) results in cross-area evaluation on CVUSA, CVACT, and VIGOR by a large margin ($16.44\%$, $22.71\%$, and $17.02\%$ without polar transformation) while keeping the same-area performance comparable to existing SOTA. Moreover, we provide detailed analyses of GeoDTR+.
Abstract（参考訳）: Cross-View Geo-Localization (CVGL)は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。近年のCVGLベンチマークは顕著な進歩を遂げている。しかしながら、既存の手法は、まったく異なる領域からトレーニングとテストデータを収集するクロスエリア評価において、パフォーマンスの低下に苦しめられている。視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。我々の予備的な作業は、入力特徴から幾何学的レイアウトをキャプチャするGeometric Layout Extractor (GLE)を導入した。しかし、以前のGLEは入力機能の情報を十分に活用していない。本研究では,視覚的特徴間の相関をモデル化する拡張GLEモジュールを用いたGeoDTR+を提案する。予備研究からLS技術を完全に探求するため,モデルトレーニングを容易にするためにコントラストハードサンプル生成(CHSG)を提案する。大規模実験の結果,GeoDTR+ は CVUSA,CVACT,VIGOR の領域横断評価を,既存の SOTA と同等の性能を維持しつつ,大差(16.44 %$,22.71 %$,17.02 %$)で達成した。また,GeoDTR+の詳細な解析を行った。

関連論文リスト

RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings [7.431269929582643]
RANGEと呼ばれる新しい検索戦略を提案する。本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
論文参考訳（メタデータ） (2025-02-27T05:45:51Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
GeoFormer: Learning Point Cloud Completion with Tri-Plane Integrated Transformer [41.26276375114911]
ポイント・クラウド・コンプリートは、正確なグローバル・ジオメトリを復元し、部分的なポイント・クラウドからのきめ細かい局所的な詳細を保存することを目的としている。従来の手法では、3Dポイントのクラウド座標から直接見えない点を予測したり、自己投影された多視点深度マップを使用するのが一般的である。ポイントのグローバルな幾何学的構造を同時に拡張し、局所的な詳細を改善するGeoFormerを導入する。
論文参考訳（メタデータ） (2024-08-13T03:15:36Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文参考訳（メタデータ） (2023-11-20T08:40:01Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation [2.3020018305241337]
対称なInfoNCE損失を伴うコントラスト学習に基づく,シンプルだが効果的なアーキテクチャを提案する。私たちのフレームワークは、アグリゲーションモジュールの使用を不要にする、狭いトレーニングパイプラインで構成されています。本研究は,CVUSA,CVACT,University-1652,VIGORなどの一般的なクロスビューデータセットに対して,優れた性能を示す。
論文参考訳（メタデータ） (2023-03-21T13:49:49Z)
Cross-view Geo-localization via Learning Disentangled Geometric Layout Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文参考訳（メタデータ） (2022-12-08T04:54:01Z)
Viewpoint Invariant Dense Matching for Visual Geolocalization [15.8038460597256]
本研究では,局所的特徴量に基づく画像マッチング手法を提案する。我々の手法はGeoWarpと呼ばれ、高密度な特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。 GeoWarpは、既存の視覚的ジオローカライゼーションパイプラインに簡単に組み込むことができる、リグレードメソッドとして効率的に実装されている。
論文参考訳（メタデータ） (2021-09-20T20:17:38Z)
Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文参考訳（メタデータ） (2020-07-30T18:23:18Z)
PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling [103.09504572409449]
PUGeo-Netと呼ばれる新しいディープニューラルネットワークを用いた一様高密度点雲を生成する手法を提案する。その幾何学中心の性質のおかげで、PUGeo-Netはシャープな特徴を持つCADモデルとリッチな幾何学的詳細を持つスキャンされたモデルの両方でうまく機能する。
論文参考訳（メタデータ） (2020-02-24T14:13:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。