論文の概要: Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization
- arxiv url: http://arxiv.org/abs/2411.13610v2
- Date: Sat, 08 Mar 2025 11:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:04.622503
- Title: Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization
- Title(参考訳): Video2BEV: ドローンビデオからBEVへ: ビデオによる地理的ローカライゼーション
- Authors: Hao Ju, Shaofei Huang, Si Liu, Zhedong Zheng,
- Abstract要約: 我々は、新しいビデオベースドローンジオローカライズタスクを定式化し、Video2BEVパラダイムを提案する。
このパラダイムは、ビデオをBird's Eye View (BEV)に変換し、その後のtextbfinter-platformマッチングプロセスを簡素化する。
提案手法を検証するために,新しいビデオベースジオローカライゼーションデータセットUniVを導入する。
- 参考スコア(独自算出の注目度): 25.35432084094669
- License:
- Abstract: Existing approaches to drone visual geo-localization predominantly adopt the image-based setting, where a single drone-view snapshot is matched with images from other platforms. Such task formulation, however, underutilizes the inherent video output of the drone and is sensitive to occlusions and viewpoint disparity. To address these limitations, we formulate a new video-based drone geo-localization task and propose the Video2BEV paradigm. This paradigm transforms the video into a Bird's Eye View (BEV), simplifying the subsequent \textbf{inter-platform} matching process. In particular, we employ Gaussian Splatting to reconstruct a 3D scene and obtain the BEV projection. Different from the existing transform methods, \eg, polar transform, our BEVs preserve more fine-grained details without significant distortion. To facilitate the discriminative \textbf{intra-platform} representation learning, our Video2BEV paradigm also incorporates a diffusion-based module for generating hard negative samples. To validate our approach, we introduce UniV, a new video-based geo-localization dataset that extends the image-based University-1652 dataset. UniV features flight paths at $30^\circ$ and $45^\circ$ elevation angles with increased frame rates of up to 10 frames per second (FPS). Extensive experiments on the UniV dataset show that our Video2BEV paradigm achieves competitive recall rates and outperforms conventional video-based methods. Compared to other competitive methods, our proposed approach exhibits robustness at lower elevations with more occlusions.
- Abstract(参考訳): 既存のドローンのジオローカライゼーションへのアプローチは、主に画像ベースの設定を採用しており、単一のドローンビュースナップショットは他のプラットフォームの画像と一致している。
しかし、このようなタスクの定式化は、ドローン固有の映像出力を過小評価し、閉塞や視点差に敏感である。
これらの制約に対処するため、新しいビデオベースドローンジオローカライゼーションタスクを定式化し、Video2BEVパラダイムを提案する。
このパラダイムは、ビデオをバードアイビュー(BEV)に変換することで、その後の‘textbf{inter-platform}マッチングプロセスを単純化する。
特に,3次元シーンを再構成し,BEVプロジェクションを得るためにガウシアン・スプラッティングを用いる。
既存の変換法である \eg, polar transform とは異なり、BEV は歪みを伴わずにより微細な細部を保存できる。
識別的‘textbf{intra-platform}表現学習を容易にするために,ビデオ2BEVパラダイムでは,ハードネガティブサンプルを生成する拡散ベースモジュールも組み込んでいる。
提案手法の有効性を検証するため,UniVは画像ベースであるUniversity-1652データセットを拡張した新しいビデオベースジオローカライゼーションデータセットである。
UniVの飛行経路は30^\circ$と45^\circ$で、フレームレートは最大10フレーム/秒(FPS)である。
UniVデータセットの大規模な実験により、私たちのVideo2BEVパラダイムは、競争力のあるリコール率を実現し、従来のビデオベース手法よりも優れています。
他の競合手法と比較して,提案手法はより閉塞度の高い低い標高で頑健性を示す。
関連論文リスト
- GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers [53.80009458891537]
クロスビュービデオのジオローカライゼーションは、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
現在のCVGL法では、現実のシナリオでは一般的に欠落しているカメラとオドメトリーのデータを使用する。
本稿では,カメラやオドメトリーデータを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
論文 参考訳(メタデータ) (2024-08-05T21:29:33Z) - DaBiT: Depth and Blur informed Transformer for Video Focal Deblurring [4.332534893042983]
多くの現実のシナリオでは、録画されたビデオは偶然の焦点がぼやけている。
本稿では、ビデオ焦点ずれの未解決作業に最適化されたフレームワークを提案する(再焦点)。
我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-01T12:22:16Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。
検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout [17.389444754562252]
本稿では,BEVControlと呼ばれる2段階生成手法を提案する。
我々のBEVControlは最先端の手法であるBEVGenをはるかに上回っている。
論文 参考訳(メタデータ) (2023-08-03T09:56:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration [20.733451121484993]
我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
マルチパーソンシーンに対して、異なるファーストパーソンビュー(FPV)からの複数のRGBイメージが入力されるだけであるため、これは非常に難しい問題である。
本稿では,この問題を解決するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-19T08:31:08Z) - Vision-based Uneven BEV Representation Learning with Polar Rasterization
and Surface Estimation [42.071461405587264]
視覚に基づく不均一なBEV表現学習のためのPolarBEVを提案する。
PolarBEVは、1台の2080Ti GPU上でリアルタイムの推論速度を維持する。
論文 参考訳(メタデータ) (2022-07-05T08:20:36Z) - VideoGPT: Video Generation using VQ-VAE and Transformers [75.20543171520565]
VideoGGは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。
VideoGはVQ-Eを用いて、3D畳み込みと軸自己アテンションを用いて、離散的潜伏表現を学習する。
我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文 参考訳(メタデータ) (2021-04-20T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。