論文の概要: GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers
- arxiv url: http://arxiv.org/abs/2408.02840v1
- Date: Mon, 5 Aug 2024 21:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:28:57.192002
- Title: GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers
- Title(参考訳): GAReT: 適応器と自動回帰変換器を用いたクロスビュービデオジオローカライゼーション
- Authors: Manu S Pillai, Mamshad Nayeem Rizve, Mubarak Shah,
- Abstract要約: クロスビュービデオのジオローカライゼーションは、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
現在のCVGL法では、現実のシナリオでは一般的に欠落しているカメラとオドメトリーのデータを使用する。
本稿では,カメラやオドメトリーデータを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
- 参考スコア(独自算出の注目度): 53.80009458891537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view video geo-localization (CVGL) aims to derive GPS trajectories from street-view videos by aligning them with aerial-view images. Despite their promising performance, current CVGL methods face significant challenges. These methods use camera and odometry data, typically absent in real-world scenarios. They utilize multiple adjacent frames and various encoders for feature extraction, resulting in high computational costs. Moreover, these approaches independently predict each street-view frame's location, resulting in temporally inconsistent GPS trajectories. To address these challenges, in this work, we propose GAReT, a fully transformer-based method for CVGL that does not require camera and odometry data. We introduce GeoAdapter, a transformer-adapter module designed to efficiently aggregate image-level representations and adapt them for video inputs. Specifically, we train a transformer encoder on video frames and aerial images, then freeze the encoder to optimize the GeoAdapter module to obtain video-level representation. To address temporally inconsistent trajectories, we introduce TransRetriever, an encoder-decoder transformer model that predicts GPS locations of street-view frames by encoding top-k nearest neighbor predictions per frame and auto-regressively decoding the best neighbor based on the previous frame's predictions. Our method's effectiveness is validated through extensive experiments, demonstrating state-of-the-art performance on benchmark datasets. Our code is available at https://github.com/manupillai308/GAReT.
- Abstract(参考訳): クロスビュービデオジオローカライゼーション(CVGL)は、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
有望なパフォーマンスにもかかわらず、現在のCVGLメソッドは重大な課題に直面している。
これらの方法は、通常現実世界のシナリオにないカメラとオドメトリーデータを使用する。
隣接する複数のフレームと様々なエンコーダを使って特徴抽出を行い、計算コストが高い。
さらに、これらのアプローチは、各ストリートビューフレームの位置を独立に予測し、時間的に矛盾したGPS軌道をもたらす。
これらの課題に対処するため,本研究では,カメラや生体計測データを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
画像レベルの表現を効率的に集約し,映像入力に適応するトランスフォーマー・アダプタモジュールであるGeoAdapterを紹介する。
具体的には、ビデオフレームと空中画像上でトランスフォーマーエンコーダをトレーニングし、次にそのエンコーダを凍結してGeoAdapterモジュールを最適化し、ビデオレベルの表現を得る。
時間的に不整合な軌跡に対処するために,前回のフレームの予測に基づいて最寄りの予測を符号化し,最寄りの予測を自己回帰的に復号することで,街路ビューフレームのGPS位置を予測できるエンコーダ・デコーダ・トランスフォーマモデルであるTransRetrieverを導入する。
提案手法の有効性は,ベンチマークデータセット上での最先端性能を実証し,広範な実験により検証する。
私たちのコードはhttps://github.com/manupillai308/GAReT.comで利用可能です。
関連論文リスト
- Surrogate Modeling of Trajectory Map-matching in Urban Road Networks using Transformer Sequence-to-Sequence Model [1.3812010983144802]
本稿では、オフラインマップマッチングアルゴリズムのサロゲートとして機能するディープラーニングモデル、特にトランスフォーマーベースのエンコーダデコーダモデルを提案する。
このモデルは、ニューヨーク州マンハッタンで収集されたGPSトレースを使って訓練され、評価されている。
論文 参考訳(メタデータ) (2024-04-18T18:39:23Z) - CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - RNTrajRec: Road Network Enhanced Trajectory Recovery with
Spatial-Temporal Transformer [15.350300338463969]
本稿では,道路網を改良したトランスフォーマーベースフレームワーク RNTrajRec を提案する。
RNTrajRecはまずグラフモデル、すなわちGridGNNを使用して、各道路セグメントの埋め込み機能を学ぶ。
次にサブグラフ生成モジュールを導入し、各GPSポイントをGPSポイント周辺の道路ネットワークのサブグラフ構造として表現する。
論文 参考訳(メタデータ) (2022-11-23T11:28:32Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - On Pursuit of Designing Multi-modal Transformer for Video Grounding [35.25323276744999]
ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
論文 参考訳(メタデータ) (2021-09-13T16:01:19Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。