論文の概要: Edge Prediction for Roof Wireframe Reconstruction with Transformers
- arxiv url: http://arxiv.org/abs/2606.02406v1
- Date: Mon, 01 Jun 2026 15:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.408685
- Title: Edge Prediction for Roof Wireframe Reconstruction with Transformers
- Title(参考訳): 変圧器を用いたルーフワイヤフレーム再構築のエッジ予測
- Authors: Gustav Hanning, Ludvig Dillén, Jonathan Astermark, Johanna Lidholm, Viktor Larsson,
- Abstract要約: 本稿では,S23DRチャレンジ2026に対する競合ソリューションを提案する。
SfM点雲と地上レベルのセマンティックセグメンテーションと深度マップから3Dハウスのワイヤーフレームモデルを再構築することを目的としている。
- 参考スコア(独自算出の注目度): 19.51403924424251
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a competitive solution to the S23DR Challenge 2026, which aims to reconstruct 3D house roof wireframe models from sparse SfM point clouds and ground-level semantic segmentations and depth maps. Our proposed method utilizes an end-to-end Transformer encoder-decoder architecture inspired by DETR. To effectively process the geometric and semantic data, the sparse SfM point cloud input is dynamically subsampled based on semantic priority and augmented with Gestalt and ADE20k class features. To further increase segmentation context, we fuse the point features with additional Gestalt feature encodings which are obtained by projecting the points into latent feature maps produced by a frozen autoencoder. Learned query embeddings are then decoded directly into 3D wireframe edges via cross-attention mechanisms. Evaluated on the "HoHo 22k" dataset, our approach significantly outperforms both handcrafted and learned baselines, achieving a Hybrid Structure Score (HSS) of 0.6476 and securing the second-highest position on the challenge's private leaderboard.
- Abstract(参考訳): 本稿では,S23DRチャレンジ2026において,SfM点群と地上レベルのセマンティックセグメンテーションと深度マップから3次元住宅用ワイヤーフレームモデルを再構築することを目的とした競争的ソリューションを提案する。
提案手法はDETRにインスパイアされたエンド・ツー・エンドのトランスフォーマー・デコーダアーキテクチャを利用する。
幾何学的および意味的データを効果的に処理するために、スパースSfMポイントクラウド入力は、セマンティック優先度に基づいて動的にサブサンプリングされ、GestaltおよびADE20kクラス機能で拡張される。
さらにセグメンテーションの文脈を拡大するために,凍結オートエンコーダによって生成された潜在特徴写像に点を投影して得られるゲシュタルト特徴符号化を加えて点特徴を融合する。
学習したクエリの埋め込みは、クロスアテンション機構を通じて直接3Dワイヤフレームエッジにデコードされる。
HSS(Hybrid Structure Score) 0.6476を達成し、チャレンジのプライベートリーダーボードにおける第2位の地位を確保しました。
関連論文リスト
- DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - Enhancing Floor Plan Recognition: A Hybrid Mix-Transformer and U-Net Approach for Precise Wall Segmentation [0.0]
本研究では,Mix-TransformerエンコーダとU-Netデコーダを組み合わせたハイブリッドニューラルネットワークMitUNetを紹介する。
我々の手法は精度とリコールのバランスを保ち、正確な境界回復を保証する。
CubiCasa5kデータセットと独自の地域データセットの実験は、構造的に正しいマスクを生成する上でのMitUNetの優位性を示している。
論文 参考訳(メタデータ) (2025-12-02T04:47:53Z) - Structured Semantic 3D Reconstruction (S23DR) Challenge 2025 -- Winning solution [0.0]
本稿では,S23DRチャレンジ2025の勝利解を提案する。
住宅の3D屋根のワイヤーフレームを、粗い点の雲とセマンティックセグメンテーションから予測する。
この2段階の3Dディープラーニングアプローチは、プライベートリーダーボードで0.43のハイブリッド構造スコア(HSS)を獲得した。
論文 参考訳(メタデータ) (2025-06-19T15:56:51Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - NEAT: Distilling 3D Wireframes from Neural Attraction Fields [52.90572335390092]
本稿では,3次元再構成セグメントと焦点接合を用いたラインフレーム接合の問題について検討する。
ProjectNEATは、クロスアートマッチングをゼロから行わずに、ジョイントニューラルフィールドとビューを楽しみます。
論文 参考訳(メタデータ) (2023-07-14T07:25:47Z) - RoCNet: 3D Robust Registration of Point-Clouds using Deep Learning [5.494111035517598]
本稿では,ディープラーニングに基づく3Dポイントクラウド登録手法を提案する。
我々はModelNet40データセットで実験を行い、提案したアーキテクチャは非常に有望な結果を示した。
論文 参考訳(メタデータ) (2023-03-14T15:07:51Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。