Fugu-MT 論文翻訳(概要): Z-FLoc: Zero-Shot Floorplan Localization via Geometric Primitives

論文の概要: Z-FLoc: Zero-Shot Floorplan Localization via Geometric Primitives

arxiv url: http://arxiv.org/abs/2606.04788v1
Date: Wed, 03 Jun 2026 12:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.736464
Title: Z-FLoc: Zero-Shot Floorplan Localization via Geometric Primitives
Title（参考訳）: Z-FLOC: 幾何学的プリミティブによるゼロショットフロアプラン定位
Authors: Ayumi Umemura, Toshinori Kuwahara, Marc Pollefeys, Daniel Barath,
Abstract要約: そこで本研究では,ゼロショットフロアプランのローカライズ手法を提案する。我々の重要な洞察は、支配的な幾何学的プリミティブが人間が作った環境でユビキタスであることである。シミュレーションと実世界の両方のデータセットの実験により、我々のアプローチは、目に見えない環境における最先端の学習ベースの手法よりも優れています。
参考スコア（独自算出の注目度）: 72.63181031215858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual localization -- estimating a camera pose within a pre-existing map -- is a fundamental problem in computer vision. Floorplans are an attractive map representation: they are readily available for most buildings, compact, and inherently invariant to visual appearance changes. However, bridging the severe domain gap between camera observations and floorplan geometry remains challenging. Existing methods address this gap through data-driven learning, yet they require large-scale training data and environment-specific retraining, limiting their practical deployment. We propose a zero-shot floorplan localization method that generalizes to novel environments without any retraining. Our key insight is that dominant geometric primitives -- lines and circles -- are ubiquitous in human-made environments and provide appearance-invariant structural constraints. We extract these primitives from a bird's-eye-view (BEV) projection of monocular 3D reconstructions and match them to the floorplan via dedicated minimal solvers within a robust estimation framework. Experiments on both simulated and real-world datasets show that our approach outperforms state-of-the-art learning-based methods on unseen environments, while using a single fixed set of hyperparameters across all experiments. The source code will be made publicly available.
Abstract（参考訳）: 既存のマップ内でカメラのポーズを推定する視覚的ローカライゼーションは、コンピュータビジョンの根本的な問題である。フロアプランは魅力的な地図表現であり、ほとんどの建物で容易に利用でき、コンパクトで、視覚的な外観の変化に本質的に不変である。しかし、カメラ観測とフロアプラン幾何学の間の領域ギャップを埋めることは依然として困難である。既存の方法は、データ駆動学習を通じてこのギャップに対処するが、大規模なトレーニングデータと環境固有のトレーニングを必要とし、実践的なデプロイメントを制限している。そこで本研究では,ゼロショットフロアプランのローカライズ手法を提案する。私たちの重要な洞察は、支配的な幾何学的原始体 -- 線と円 -- は、人間が作った環境でユビキタスであり、外観に不変な構造的制約を提供するということです。単眼3次元再構成の鳥眼視(BEV)プロジェクションからこれらのプリミティブを抽出し,ロバストな推定枠組み内の専用最小解法を用いてフロアプランとマッチングする。シミュレーションと実世界の両方のデータセットの実験では、我々のアプローチは、すべての実験で単一の固定されたハイパーパラメータセットを使用しながら、目に見えない環境において最先端の学習ベースの手法よりも優れていることが示されています。ソースコードは一般公開される予定だ。

関連論文リスト

Perceive-then-Plan: Layout-as-Policy for Monocular 3D Scene Layout Estimation [37.60004902691764]
1つの画像から構造化された3Dシーンレイアウトを構築するには、物理的および空間的制約で視覚的な観察を調整する必要がある。視覚言語モデルを用いた単眼3次元レイアウト推定を知覚的テーマプラン問題として定式化する。本稿では,計画段階を政策学習問題とするレイアウト・アズ・ポリシィ(LaP)を提案する。
論文参考訳（メタデータ） (2026-05-25T01:16:19Z)
Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文参考訳（メタデータ） (2026-04-02T08:08:41Z)
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。既存の手法は、しばしば完全に教師付き学習に依存している。本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文参考訳（メタデータ） (2025-07-15T03:00:15Z)
Self-training Room Layout Estimation via Geometry-aware Ray-casting [27.906107629563852]
本研究では,未表示のシーンにおける室内レイアウト推定モデルのための幾何学的自己学習フレームワークを提案する。提案手法では,異なる視点からの複数の推定値の集計にレイキャストの定式化を用いる。
論文参考訳（メタデータ） (2024-07-21T03:25:55Z)
Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-21T14:50:24Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文参考訳（メタデータ） (2022-12-06T14:15:17Z)
Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文参考訳（メタデータ） (2021-08-09T18:16:08Z)
Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文参考訳（メタデータ） (2020-03-18T17:22:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。