Fugu-MT 論文翻訳(概要): RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings

論文の概要: RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings

arxiv url: http://arxiv.org/abs/2502.19781v1
Date: Thu, 27 Feb 2025 05:45:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.77525
Title: RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings
Title（参考訳）: RANGE:マルチリゾリューションジオ埋め込みのための検索強化ニューラルネットワーク
Authors: Aayush Dhakal, Srikumar Sastry, Subash Khanal, Adeel Ahmad, Eric Xing, Nathan Jacobs,
Abstract要約: RANGEと呼ばれる新しい検索戦略を提案する。分類タスクは最大13.1%、回帰タスクは0.145ドルR2$である。コードはすべてGitHubでリリースされます。
参考スコア（独自算出の注目度）: 7.431269929582643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The choice of representation for geographic location significantly impacts the accuracy of models for a broad range of geospatial tasks, including fine-grained species classification, population density estimation, and biome classification. Recent works like SatCLIP and GeoCLIP learn such representations by contrastively aligning geolocation with co-located images. While these methods work exceptionally well, in this paper, we posit that the current training strategies fail to fully capture the important visual features. We provide an information theoretic perspective on why the resulting embeddings from these methods discard crucial visual information that is important for many downstream tasks. To solve this problem, we propose a novel retrieval-augmented strategy called RANGE. We build our method on the intuition that the visual features of a location can be estimated by combining the visual features from multiple similar-looking locations. We evaluate our method across a wide variety of tasks. Our results show that RANGE outperforms the existing state-of-the-art models with significant margins in most tasks. We show gains of up to 13.1\% on classification tasks and 0.145 $R^2$ on regression tasks. All our code will be released on GitHub. Our models will be released on HuggingFace.
Abstract（参考訳）: 地理的位置の表現の選択は、細粒度の種分類、人口密度の推定、バイオメの分類など、幅広い地理空間的タスクのモデルの精度に大きな影響を及ぼす。 SatCLIPやGeoCLIPといった最近の研究は、位置と位置を平行に合わせることで、そのような表現を学習している。これらの手法は極めてうまく機能するが、本稿では、現在のトレーニング戦略が重要な視覚的特徴を完全に捉えることに失敗していると仮定する。本稿では,これらの手法から得られる埋め込みが,下流作業において重要な重要な視覚情報を捨てる理由について,情報理論的な視点を提供する。そこで本研究では,RANGEと呼ばれる新たな検索戦略を提案する。本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。我々は様々なタスクにまたがって手法を評価した。その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。分類タスクは最大13.1\%、回帰タスクは0.145$R^2$である。コードはすべてGitHubでリリースされます。私たちのモデルはHuggingFaceでリリースされます。

関連論文リスト

Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文参考訳（メタデータ） (2023-11-20T08:40:01Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
GSV-Cities: Toward Appropriate Supervised Visual Place Recognition [3.6739949215165164]
我々は,GSV-Citiesという画像データセットを紹介した。次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
論文参考訳（メタデータ） (2022-10-19T01:39:29Z)
GPS: A Policy-driven Sampling Approach for Graph Representation Learning [12.760239169374984]
適応的グラフポリシー駆動サンプリングモデル (GPS) を提案し, 適応的相関計算により各ノードの影響を局所的に評価する。提案モデルでは,いくつかの重要なベンチマークにおいて既存モデルよりも3%-8%向上し,実世界のデータセットで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-12-29T09:59:53Z)
Leveraging EfficientNet and Contrastive Learning for Accurate Global-scale Location Estimation [15.633461635276337]
地球規模の画像ジオロケーションのための混合分類検索方式を提案する。このアプローチは、4つの公開データセットで非常に競争力のあるパフォーマンスを示す。
論文参考訳（メタデータ） (2021-05-17T07:18:43Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)
City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。まず,視覚的位置認識の包括的分析を行い,その課題を概観する。次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文参考訳（メタデータ） (2020-09-19T15:21:59Z)
Region Comparison Network for Interpretable Few-shot Image Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文参考訳（メタデータ） (2020-09-08T07:29:05Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)
SE-KGE: A Location-Aware Knowledge Graph Embedding Model for Geographic Question Answering and Spatial Semantic Lifting [9.949690056661218]
位置認識型KG埋め込みモデルSE-KGEを提案する。点座標や地理的実体の境界ボックスなどの空間情報をKG埋め込み空間にエンコードする。また、SE-KGEの性能を評価するために、地理知識グラフと、DBGeoと呼ばれる地理的問合せ対のセットを構築した。
論文参考訳（メタデータ） (2020-04-25T17:46:31Z)
A Transfer Learning approach to Heatmap Regression for Action Unit intensity estimation [50.261472059743845]
アクション・ユニット(英: Action Units、AUs)は、幾何学に基づく原子性顔面筋運動である。本稿では,その位置と強度を共同で推定する新しいAUモデリング問題を提案する。ヒートマップは、所定の空間的位置でAUが発生するか否かをモデル化する。
論文参考訳（メタデータ） (2020-04-14T16:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。