論文の概要: CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data
- arxiv url: http://arxiv.org/abs/2112.09081v1
- Date: Thu, 16 Dec 2021 18:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:58:52.332465
- Title: CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data
- Title(参考訳): CrossLoc: マルチモーダル合成データによるスケーラブルな航空局地化
- Authors: Qi Yan, Jianhao Zheng, Simon Reding, Shanci Li, Iordan Doytchinov
- Abstract要約: 本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
- 参考スコア(独自算出の注目度): 2.554905387213586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a visual localization system that learns to estimate camera poses
in the real world with the help of synthetic data. Despite significant progress
in recent years, most learning-based approaches to visual localization target
at a single domain and require a dense database of geo-tagged images to
function well. To mitigate the data scarcity issue and improve the scalability
of the neural localization models, we introduce TOPO-DataGen, a versatile
synthetic data generation tool that traverses smoothly between the real and
virtual world, hinged on the geographic camera viewpoint. New large-scale
sim-to-real benchmark datasets are proposed to showcase and evaluate the
utility of the said synthetic data. Our experiments reveal that synthetic data
generically enhances the neural network performance on real data. Furthermore,
we introduce CrossLoc, a cross-modal visual representation learning approach to
pose estimation that makes full use of the scene coordinate ground truth via
self-supervision. Without any extra data, CrossLoc significantly outperforms
the state-of-the-art methods and achieves substantially higher real-data sample
efficiency. Our code is available at https://github.com/TOPO-EPFL/CrossLoc.
- Abstract(参考訳): 本稿では,合成データを用いて実世界におけるカメラポーズの推定を学習する視覚定位システムを提案する。
近年の進歩にもかかわらず、ほとんどの学習ベースのアプローチは、単一のドメインでの視覚的ローカライゼーションをターゲットとし、ジオタグ付き画像の高密度なデータベースが必要である。
データ不足を軽減し、ニューラルネットワークの局所化モデルのスケーラビリティを向上させるため、地理カメラの視点で、実世界と仮想世界をスムーズに横断する多目的合成データ生成ツールTOPO-DataGenを紹介した。
この合成データの有用性を実証し評価するために,新しい大規模sim-to-realベンチマークデータセットを提案する。
実験の結果,合成データにより実データ上でのニューラルネットワークの性能が向上することが判明した。
さらに,横断的視覚表現学習手法であるcrosslocを導入し,自己スーパービジョンによるシーン座標基底真理をフル活用したポーズ推定手法を提案する。
余分なデータなしでは、CrossLocは最先端のメソッドを著しく上回り、リアルタイムサンプル効率を大幅に向上させる。
私たちのコードはhttps://github.com/TOPO-EPFL/CrossLoc.comで公開されています。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - View-Dependent Octree-based Mesh Extraction in Unbounded Scenes for
Procedural Synthetic Data [71.22495169640239]
手続き署名距離関数(SDF)は、大規模な詳細なシーンをモデル化するための強力なツールである。
OcMesherというメッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-13T18:56:13Z) - Synfeal: A Data-Driven Simulator for End-to-End Camera Localization [0.9749560288448114]
実世界の現実的な3次元再構成に基づいて,大規模な局所化データセットを合成するフレームワークを提案する。
我々のフレームワークであるSynfealは、リアルな3Dテクスチャメッシュを介して仮想カメラを移動させることで、RGB画像を合成するオープンソースのデータ駆動シミュレータである。
結果は、Synfealが生成したデータセットに対するカメラローカライゼーションアルゴリズムのトレーニングが、最先端の手法によって生成されたデータセットと比較して、より良い結果をもたらすことを検証した。
論文 参考訳(メタデータ) (2023-05-29T17:29:02Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。