論文の概要: FlatLands: Generative Floormap Completion From a Single Egocentric View
- arxiv url: http://arxiv.org/abs/2603.16016v1
- Date: Mon, 16 Mar 2026 23:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.046569
- Title: FlatLands: Generative Floormap Completion From a Single Egocentric View
- Title(参考訳): FlatLands: 単一のエゴセントリックな視点から生成するフロアマップの完成
- Authors: Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome,
- Abstract要約: 単一ビューの鳥眼ビュー(BEV)フロアコンプリートのためのデータセットとベンチマークであるFlatLandsを紹介した。
データセットには、既存の6つのデータセットから描かれた17,656の屋内シーンからの270,575の観測が含まれている。
- 参考スコア(独自算出の注目度): 24.890782171333246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A single egocentric image typically captures only a small portion of the floor, yet a complete metric traversability map of the surroundings would better serve applications such as indoor navigation. We introduce FlatLands, a dataset and benchmark for single-view bird's-eye view (BEV) floor completion. The dataset contains 270,575 observations from 17,656 real metric indoor scenes drawn from six existing datasets, with aligned observation, visibility, validity, and ground-truth BEV maps, and the benchmark includes both in- and out-of-distribution evaluation protocols. We compare training-free approaches, deterministic models, ensembles, and stochastic generative models. Finally, we instantiate the task as an end-to-end monocular RGB-to-floormaps pipeline. FlatLands provides a rigorous testbed for uncertainty-aware indoor mapping and generative completion for embodied navigation.
- Abstract(参考訳): 単一の自我中心の画像は、通常、床のごく一部しか捉えないが、周囲の完全なメートル法地図は、屋内ナビゲーションのような応用に役立てる。
単一ビューの鳥眼ビュー(BEV)フロアコンプリートのためのデータセットとベンチマークであるFlatLandsを紹介した。
データセットには、既存の6つのデータセットから描かれた17,656のリアルなメートル法屋内シーンからの270,575の観測結果が含まれており、一致した観察、可視性、妥当性、地上のBEVマップ、およびベンチマークには、in-of-distriionとout-out-distriionの両方の評価プロトコルが含まれている。
学習自由アプローチ,決定論的モデル,アンサンブル,確率的生成モデルを比較した。
最後に、タスクをエンドツーエンドのモノラルなRGB-to-floormapsパイプラインとしてインスタンス化する。
FlatLandsは、不確実性を認識した屋内マッピングと、埋め込みナビゲーションのための生成完了のための厳格なテストベッドを提供する。
関連論文リスト
- MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction [44.37176678126708]
自動運転車は周囲の世界を理解するために地図情報に依存している。
よりスケーラブルな代替手段は、オンラインのHDマップ構築にある。
本研究は、ベクトル化されたオンラインHDマップ構築モデルにおいて、潜伏鳥眼ビュー(BEV)特徴グリッド表現を改善することに焦点を当てる。
我々は、単一トラバーサルラベル付きデータの縮小セットを用いて教師付き同じモデルを訓練し、マルチトラバーサル要求に従ってより広範なラベル付きデータセットに基づいて自己教師する。
論文 参考訳(メタデータ) (2026-03-11T11:58:23Z) - Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - Beyond the Frontier: Predicting Unseen Walls from Occupancy Grids by Learning from Floor Plans [3.432284729311483]
本研究では,360deg LIDARセンサの軌跡に沿って集積された占有格子上に2次元の線分を配置し,部分観測環境の見えない壁面を予測する課題に取り組む。
大学キャンパスからのオフィススケールフロアプランのコレクションにおいて、ランダムにサンプリングされたウェイポイントのセット間で仮想ロボットをナビゲートすることにより、そのような占有グリッドとその対象壁セグメントのデータセットを収集する。
行セグメント予測タスクを自己回帰シーケンス予測タスクとして定式化し、データセット上で注目ベースのディープネットワークをトレーニングする。
論文 参考訳(メタデータ) (2024-06-13T14:22:59Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Embedding Earth: Self-supervised contrastive pre-training for dense land
cover classification [61.44538721707377]
本研究では,衛星画像の高可用性を活用するための自己監督型コントラスト事前学習法として,エンベディングアースを提案する。
提案手法による事前学習では, 25%の絶対mIoUが得られた。
学習した特徴は、異なる領域間で一般化され、提案した事前学習スキームの可能性を開放する。
論文 参考訳(メタデータ) (2022-03-11T16:14:14Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。