論文の概要: Cross-view Localization and Synthesis - Datasets, Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2510.22736v1
- Date: Sun, 26 Oct 2025 16:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.347734
- Title: Cross-view Localization and Synthesis - Datasets, Challenges and Opportunities
- Title(参考訳): クロスビューのローカライゼーションと合成 - データセット、課題、機会
- Authors: Ningli Xu, Rongjun Qin,
- Abstract要約: クロスビューの局所化と合成は、クロスビューの視覚的理解における2つの基本的なタスクである。
これらのタスクは、自律ナビゲーション、都市計画、拡張現実に広く応用されているため、注目を集めている。
近年、大規模なデータセットと新しいアプローチが利用可能になったことにより、急速な進歩が見られた。
- 参考スコア(独自算出の注目度): 12.433321159554525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view localization and synthesis are two fundamental tasks in cross-view visual understanding, which deals with cross-view datasets: overhead (satellite or aerial) and ground-level imagery. These tasks have gained increasing attention due to their broad applications in autonomous navigation, urban planning, and augmented reality. Cross-view localization aims to estimate the geographic position of ground-level images based on information provided by overhead imagery while cross-view synthesis seeks to generate ground-level images based on information from the overhead imagery. Both tasks remain challenging due to significant differences in viewing perspective, resolution, and occlusion, which are widely embedded in cross-view datasets. Recent years have witnessed rapid progress driven by the availability of large-scale datasets and novel approaches. Typically, cross-view localization is formulated as an image retrieval problem where ground-level features are matched with tiled overhead images feature, extracted by convolutional neural networks (CNNs) or vision transformers (ViTs) for cross-view feature embedding. Cross-view synthesis, on the other hand, seeks to generate ground-level views based on information from overhead imagery, generally using generative adversarial networks (GANs) or diffusion models. This paper presents a comprehensive survey of advances in cross-view localization and synthesis, reviewing widely used datasets, highlighting key challenges, and providing an organized overview of state-of-the-art techniques. Furthermore, it discusses current limitations, offers comparative analyses, and outlines promising directions for future research. We also include the project page via https://github.com/GDAOSU/Awesome-Cross-View-Methods.
- Abstract(参考訳): クロスビューのローカライゼーションと合成は、オーバヘッド(衛星または空中)と地上レベルのイメージという、クロスビューの視覚的理解における2つの基本的なタスクである。
これらのタスクは、自律ナビゲーション、都市計画、拡張現実に広く応用されているため、注目を集めている。
クロスビュー・ローカライゼーションは、頭上画像の情報に基づいて地上レベルの画像の位置を推定することを目的としており、クロスビュー・シンセサイザーは頭上画像の情報に基づいて地上レベルの画像を生成する。
両タスクは、視野、解像度、閉塞性に大きな違いがあるため、依然として困難であり、これは、クロスビューデータセットに広く埋め込まれている。
近年、大規模なデータセットと新しいアプローチが利用可能になったことにより、急速な進歩が見られた。
通常、クロスビューのローカライゼーションは、画像検索問題として定式化され、地上レベルの特徴と、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)によって抽出されたタイル付きオーバーヘッド画像特徴とが一致する。
一方、クロスビュー合成は、一般的にGAN(Generative Adversarial Network)や拡散モデルを用いて、オーバーヘッド画像からの情報に基づいて地上レベルのビューを生成する。
本稿では、クロスビューのローカライゼーションと合成の進歩を総合的に調査し、広く使われているデータセットをレビューし、重要な課題を強調し、最先端技術の概要を整理した。
さらに、現在の限界について論じ、比較分析を提供し、将来の研究に向けた有望な方向性を概説する。
また、プロジェクトページをhttps://github.com/GDAOSU/Awesome-Cross-View-Methods.comから含めています。
関連論文リスト
- Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。
これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文 参考訳(メタデータ) (2024-12-04T13:47:51Z) - Retrieval-guided Cross-view Image Synthesis [3.7477511412024573]
クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。
本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
論文 参考訳(メタデータ) (2024-11-29T07:04:44Z) - CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Cross-view Self-localization from Synthesized Scene-graphs [1.9580473532948401]
クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難解なシナリオである。
生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせたハイブリッドシーンモデルを提案する。
論文 参考訳(メタデータ) (2023-10-24T04:16:27Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。