Fugu-MT 論文翻訳(概要): Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images

論文の概要: Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images

arxiv url: http://arxiv.org/abs/2605.07978v1
Date: Fri, 08 May 2026 16:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.206962
Title: Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images
Title（参考訳）: スキー場と通りを見渡す:衛星・ドローン・地上画像からのフィードフォワード3D再構成
Authors: Qiwei Wang, Zhongyao Tuo, Xianghui Ze, Yujiao Shi,
Abstract要約: この地上画像は、衛星タイルの上にどこにあるのか? 衛星タイルをUAV画像、地上画像、またはその両方とともに摂取するフレキシブルフィードフォワードモデルである*Cross3R*を提案する。クロスビューの3Dポイントクラウドを復元し、すべての入力カメラの6-DoFポーズと、各視点カメラの位置とヤウのオンタイルの$(x,y)$位置を復元する。
参考スコア（独自算出の注目度）: 18.886133945494503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-view localization classically asks: where does this ground image lie on the satellite tile? Existing methods are typically limited to 3-DoF estimates -- an $(x,y)$ position and a yaw angle -- because nadir satellite imagery provides no direct cues for roll, pitch, or altitude, forcing a reliance on planar-motion and zero-tilt assumptions. These assumptions break on real terrain with slopes, ramps, and tilted camera mounts. To overcome this, we introduce a single UAV image as an intermediate viewpoint: it reveals the 3D structure invisible from nadir, supplies the cues for roll, pitch, and altitude that the satellite alone cannot provide, and needs only spatial overlap with the ground camera -- no known relative pose is required. Building on this insight, we propose **Cross3R**, a flexible feed-forward model that ingests a satellite tile together with a UAV image, a ground image, or both, and, in a single forward pass, recovers a cross-view 3D point cloud, the 6-DoF poses of every input camera, and the on-tile $(x,y)$ position and yaw of each perspective camera. For training and evaluation, we also construct **CrossGeo**, a 278K-image tri-view dataset spanning 85 scenes across every continent except Antarctica. On CrossGeo, Cross3R consistently outperforms feed-forward 3D baselines in point-cloud reconstruction, 6-DoF camera-pose estimation, and cross-view localization. On KITTI, it outperforms dedicated cross-view methods trained on KITTI on most metrics, despite having no KITTI training itself.
Abstract（参考訳）: この地上画像は、衛星タイルの上にどこにあるのか? ナディアの衛星画像は、ロール、ピッチ、高度の直接的な手がかりを提供しておらず、平面運動やゼロチルトの仮定に頼らざるを得ないからである。これらの仮定は、斜面、斜面、傾斜したカメラマウントのある実際の地形を壊します。衛星だけでは提供できないロール、ピッチ、高度のためのキューを供給し、地上カメラとの空間的重なりしか必要とせず、既知の相対的なポーズは不要である。この知見に基づいて, 衛星タイルをUAV画像, 地上画像, あるいはその両方とともに取り込み, 単一の前方通過で, クロスビュー3Dポイントクラウド, 入力カメラの6-DoFポーズ, オンタイル$(x,y)$位置とヤウを復元する, フレキシブルフィードフォワードモデルである*Cross3R*を提案する。トレーニングと評価のために、南極を除く各大陸の85のシーンにまたがる278K画像のトリビューデータセット**CrossGeo*を構築した。 CrossGeoでは、Cross3Rは、ポイントクラウド再構築、6-DoFカメラ配置推定、およびクロスビューローカライゼーションにおいてフィードフォワード3Dベースラインを一貫して上回る。 KITTIでは、KITTIのトレーニング自体を持たないにもかかわらず、ほとんどのメトリクスでKITTIでトレーニングされたクロスビューメソッドよりも優れています。

関連論文リスト

Satellite-Free Training for Drone-View Geo-Localization [23.183491899036138]
ドローンビューのジオローカライゼーションは、対応するジオタグ付き衛星タイルを検索することで、GPSで識別された環境におけるドローンの位置を決定することを目的としている。本稿では,ドローン画像のクロスプラットフォーム対応表現に変換する,衛星フリーのトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-02T03:48:53Z)
Sky2Ground: A Benchmark for Site Modeling under Varying Altitude [3.479712135769016]
高度カメラのローカライゼーション、対応学習、再構築のための3ビューデータセットであるSky2Groundを紹介した。このデータセットは、構造化された合成画像と実際の内蔵画像を組み合わせることで、制御された多視点幾何学と現実的なシーンノイズの両方を提供する。我々は,MASt3R,DUSt3R,Map Anything,VGGTといったアートポーズ推定モデルの状態をベンチマークし,衛星画像の使用が性能を劣化させることをよく観察する。本研究では,衛星画像とカリキュラムベースのトレーニング戦略を組み込む際に,視界の整合性を高めるモデルであるSkyNetを提案する。
論文参考訳（メタデータ） (2026-03-14T03:59:19Z)
FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文参考訳（メタデータ） (2025-03-24T14:34:20Z)
CVLNet: Cross-View Semantic Correspondence Learning for Video-based Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文参考訳（メタデータ） (2022-08-07T07:35:17Z)
Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文参考訳（メタデータ） (2022-07-27T13:16:39Z)
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文参考訳（メタデータ） (2022-04-10T19:16:58Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。