論文の概要: Systematic Evaluation of Novel View Synthesis for Video Place Recognition
- arxiv url: http://arxiv.org/abs/2603.05876v1
- Date: Fri, 06 Mar 2026 03:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.993245
- Title: Systematic Evaluation of Novel View Synthesis for Video Place Recognition
- Title(参考訳): ビデオ位置認識のための新しい視点合成の体系的評価
- Authors: Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons,
- Abstract要約: 画像に基づくナビゲーションでは、地上ロボットが撮影したシーンから生成された新しいオーバーヘッドビューを使用して、空中ロボットをその場所に誘導することができる。
ビデオプレース認識(VPR)では、UAVが地上ロボットが見ている場所を識別できるように、空中からの地上位置の新たなビューを追加することができる。
本稿では,5つのパブリックVPR画像データベースと7つの典型的な画像類似性手法を用いて,VPRにおける合成新規ビューの体系的評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generation of synthetic novel views has the potential to positively impact robot navigation in several ways. In image-based navigation, a novel overhead view generated from a scene taken by a ground robot could be used to guide an aerial robot to that location. In Video Place Recognition (VPR), novel views of ground locations from the air can be added that enable a UAV to identify places seen by the ground robot, and similarly, overhead views can be used to generate novel ground views. This paper presents a systematic evaluation of synthetic novel views in VPR using five public VPR image databases and seven typical image similarity methods. We show that for small synthetic additions, novel views improve VPR recognition statistics. We find that for larger additions, the magnitude of viewpoint change is less important than the number of views added and the type of imagery in the dataset.
- Abstract(参考訳): 合成新規ビューの生成は、いくつかの面でロボットナビゲーションに肯定的な影響を与える可能性がある。
画像に基づくナビゲーションでは、地上ロボットが撮影したシーンから生成された新しいオーバーヘッドビューを使用して、空中ロボットをその場所に誘導することができる。
ビデオプレース認識(VPR)では、UAVが地上ロボットが見た場所を識別できる新しい地上ビューを追加でき、同様に、頭上ビューを使用して新しい地上ビューを生成することができる。
本稿では,5つのパブリックVPR画像データベースと7つの典型的な画像類似性手法を用いて,VPRにおける合成新規ビューの体系的評価を行う。
そこで本研究では,小さな合成付加物に対して,VPRの認識統計を改良する新たな視点を示す。
より大きな追加では、視点の変化の規模は、追加されるビューの数やデータセットのイメージの種類よりも重要でないことがわかった。
関連論文リスト
- Hybrid guided variational autoencoder for visual place recognition [6.216969459864948]
視覚的位置認識(VPR)は、これまで見られた場所に基づいて画像の位置を推定する。
この研究は、イベントベース視覚センサとイベントベース誘導変分オートエンコーダ(VAE)を組み合わせることで、ロボット工学におけるこれらの制限を克服する。
VAEは、新しい屋内VPRデータセットの16箇所の視覚的特徴を、他の最先端のアプローチに匹敵する分類性能で切り離すことに成功しました。
論文 参考訳(メタデータ) (2026-01-14T07:33:53Z) - Vision Foundation Models for Domain Generalisable Cross-View Localisation in Planetary Ground-Aerial Robotic Teams [15.147723721875456]
我々は、機械学習を用いて、限られた視野の単眼の地上RGB画像を入力として、局所的な空域マップに自分自身をローカライズするローバーについて検討する。
機械学習手法における重要な考慮事項は、トレーニングに適した接地位置ラベルを持つ実空間データが不足していることである。
クロスビュー・ローカライズされたデュアルエンコーダディープニューラルネットワークを用いた空中地図におけるローバーのローカライズ手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T03:11:05Z) - Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis [39.43518544801439]
地上から地上への画像合成は、対応する地上の景観画像から現実的な空中画像を生成することに焦点を当てている。
本研究では,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
地上から地上までの多様な画像合成用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
論文 参考訳(メタデータ) (2024-08-03T15:43:56Z) - Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach [47.373245682678515]
本研究は、視点変化の課題を克服するために、アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
その結果,既存の手法と比較して,データ駆動方式の方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-04T08:18:30Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Self-Supervised Visibility Learning for Novel View Synthesis [79.53158728483375]
従来のレンダリング方法はシーン形状を推定し、2つの別々のステップで新しいビューを合成します。
エラー伝搬問題を排除するために,エンドツーエンドのNVSフレームワークを提案する。
当社のネットワークはエンドツーエンドのセルフ監視方式でトレーニングされており、ビュー合成におけるエラーの蓄積を大幅に軽減します。
論文 参考訳(メタデータ) (2021-03-29T08:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。