論文の概要: Perspective from a Broader Context: Can Room Style Knowledge Help Visual Floorplan Localization?
- arxiv url: http://arxiv.org/abs/2508.01216v1
- Date: Sat, 02 Aug 2025 06:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.763653
- Title: Perspective from a Broader Context: Can Room Style Knowledge Help Visual Floorplan Localization?
- Title(参考訳): 広義のコンテキストからの視点: ルームスタイルの知識は視覚的フロアプランの定位に役立つか?
- Authors: Bolei Chen, Shengsheng Yan, Yongzheng Cui, Jiaxu Kang, Ping Zhong, Jianxin Wang,
- Abstract要約: 本稿では,自己照合された未ラベルの部屋画像上で,部屋識別器を事前訓練するためのクラスタリング制約付き教師なし学習手法を提案する。
このような判別器は、観察された画像の隠されたルームタイプを経験的に抽出し、他のルームタイプと区別することができる。
識別器が要約したシーンコンテキスト情報をFLOCアルゴリズムに注入することにより、室内スタイルの知識を効果的に活用し、特定視覚FLOCを誘導する。
- 参考スコア(独自算出の注目度): 6.84207750713782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since a building's floorplan remains consistent over time and is inherently robust to changes in visual appearance, visual Floorplan Localization (FLoc) has received increasing attention from researchers. However, as a compact and minimalist representation of the building's layout, floorplans contain many repetitive structures (e.g., hallways and corners), thus easily result in ambiguous localization. Existing methods either pin their hopes on matching 2D structural cues in floorplans or rely on 3D geometry-constrained visual pre-trainings, ignoring the richer contextual information provided by visual images. In this paper, we suggest using broader visual scene context to empower FLoc algorithms with scene layout priors to eliminate localization uncertainty. In particular, we propose an unsupervised learning technique with clustering constraints to pre-train a room discriminator on self-collected unlabeled room images. Such a discriminator can empirically extract the hidden room type of the observed image and distinguish it from other room types. By injecting the scene context information summarized by the discriminator into an FLoc algorithm, the room style knowledge is effectively exploited to guide definite visual FLoc. We conducted sufficient comparative studies on two standard visual Floc benchmarks. Our experiments show that our approach outperforms state-of-the-art methods and achieves significant improvements in robustness and accuracy.
- Abstract(参考訳): 建物のフロアプランは時間とともに一定であり、視覚的外観の変化に対して本質的に堅牢であるため、視覚的フロアプランのローカライゼーション(FLOC)は研究者から注目されている。
しかし、建物のレイアウトのコンパクトで最小限の表現として、フロアプランには多くの繰り返し構造(例えば、廊下や角)が含まれており、その結果、不明瞭な局所化が容易に生じる。
既存の手法は、フロアプランにおける2次元構造的手がかりの整合性に期待を向けるか、3次元幾何学的に制約された視覚前訓練に依存し、視覚画像によって提供されるよりリッチな文脈情報を無視している。
本稿では、より広い視覚的シーンコンテキストを用いて、シーンレイアウトに先立ってFLOCアルゴリズムを有効活用し、ローカライゼーションの不確実性を排除することを提案する。
特に,クラスタリング制約のある教師なし学習手法を提案する。
このような判別器は、観察された画像の隠されたルームタイプを経験的に抽出し、他のルームタイプと区別することができる。
識別器が要約したシーンコンテキスト情報をFLOCアルゴリズムに注入することにより、室内スタイルの知識を効果的に活用し、特定視覚FLOCを誘導する。
2つの標準的な視覚的Flocベンチマークについて十分な比較研究を行った。
実験の結果,本手法は最先端の手法より優れ,ロバスト性や精度の大幅な向上を実現していることがわかった。
関連論文リスト
- Supercharging Floorplan Localization with Semantic Rays [11.68879796145804]
本稿では,深度とセマンティック線を共同で推定する意味認識フレームワークを提案する。
提案手法は最先端の手法よりも大幅に優れており,従来の手法と比較して,リコール基準の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-07-12T14:01:54Z) - vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding [0.0]
本稿では,新しいリアルタイムVSLAMフレームワークであるビジュアルSグラフ(vS-Graphs)を紹介する。
視覚に基づくシーン理解と地図再構成と理解可能なグラフベース表現を統合している。
標準ベンチマークと実世界のデータセットの実験は、vS-Graphsが最先端のVSLAMメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-03-03T18:15:11Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - OCTAve: 2D en face Optical Coherence Tomography Angiography Vessel
Segmentation in Weakly-Supervised Learning with Locality Augmentation [14.322349196837209]
画素レベルのアノテーションを自動化するために,スクリブルベースの弱教師付き学習手法を提案する。
OCTAveと呼ばれる本提案手法は,スクリブルアノテートによる弱教師付き学習と,敵意と自己監督型自己監督型深層学習を組み合わせたものである。
論文 参考訳(メタデータ) (2022-07-25T14:40:56Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。