論文の概要: LASER: LAtent SpacE Rendering for 2D Visual Localization
- arxiv url: http://arxiv.org/abs/2204.00157v2
- Date: Sun, 26 Mar 2023 23:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 03:41:53.142181
- Title: LASER: LAtent SpacE Rendering for 2D Visual Localization
- Title(参考訳): レーザー: 2次元視覚定位のための潜在空間レンダリング
- Authors: Zhixiang Min, Naji Khosravan, Zachary Bessinger, Manjunath Narayana,
Sing Bing Kang, Enrique Dunn, Ivaylo Boyadzhiev
- Abstract要約: 本稿では,床図上の2次元ポーズ仮説を幾何学的に構造化された潜在空間に直接描画する潜在空間レンダリングの概念を紹介する。
当社のコードブック方式は,機能符号化とレンダリングを効果的に切り離し,遅延空間レンダリングを10KHz以上の速度で実行可能にする。
LASERは大規模屋内ローカライゼーションデータセット上で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 16.15081513827044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LASER, an image-based Monte Carlo Localization (MCL) framework for
2D floor maps. LASER introduces the concept of latent space rendering, where 2D
pose hypotheses on the floor map are directly rendered into a
geometrically-structured latent space by aggregating viewing ray features.
Through a tightly coupled rendering codebook scheme, the viewing ray features
are dynamically determined at rendering-time based on their geometries (i.e.
length, incident-angle), endowing our representation with view-dependent
fine-grain variability. Our codebook scheme effectively disentangles feature
encoding from rendering, allowing the latent space rendering to run at speeds
above 10KHz. Moreover, through metric learning, our geometrically-structured
latent space is common to both pose hypotheses and query images with arbitrary
field of views. As a result, LASER achieves state-of-the-art performance on
large-scale indoor localization datasets (i.e. ZInD and Structured3D) for both
panorama and perspective image queries, while significantly outperforming
existing learning-based methods in speed.
- Abstract(参考訳): 2次元フロアマップのための画像ベースモンテカルロ局在化(MCL)フレームワークであるLASERを提案する。
LASERはラテント空間レンダリングの概念を導入し、フロアマップ上の2Dポーズ仮説を直接幾何学的に構造化されたラテント空間に描画する。
タイトに結合されたレンダリングコードブックスキームにより、表示線特徴は、そのジオメトリ(長さ、入射角)に基づいてレンダリング時に動的に決定され、ビュー依存の細粒度可変で表現される。
当社のコードブック方式は,機能符号化とレンダリングを効果的に切り離し,遅延空間レンダリングを10KHz以上の速度で実行可能にする。
さらに、計量学習により、幾何学的に構造化された潜在空間は、仮説と任意の視野を持つ画像の問合せの両方に共通である。
その結果、LASERはパノラマ画像と遠近画像の両方の大規模屋内ローカライゼーションデータセット(ZInDとStructured3D)の最先端性能を達成し、既存の学習手法よりも高速である。
関連論文リスト
- LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文 参考訳(メタデータ) (2024-10-06T09:26:07Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Spatiotemporally Consistent HDR Indoor Lighting Estimation [66.26786775252592]
本研究では,屋内照明推定問題を解決するための物理動機付きディープラーニングフレームワークを提案する。
深度マップを用いた1枚のLDR画像から,任意の画像位置における空間的に一貫した照明を予測できる。
我々のフレームワークは、最先端の単一画像やビデオベースの手法と比較して、高画質で光リアリスティック照明予測を実現する。
論文 参考訳(メタデータ) (2023-05-07T20:36:29Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。