論文の概要: TopoMaskV3: 3D Mask Head with Dense Offset and Height Predictions for Road Topology Understanding
- arxiv url: http://arxiv.org/abs/2603.01558v1
- Date: Mon, 02 Mar 2026 07:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.74114
- Title: TopoMaskV3: 3D Mask Head with Dense Offset and Height Predictions for Road Topology Understanding
- Title(参考訳): TopoMaskV3:Dense Offsetによる3次元マスクヘッドと道路トポロジー理解のための高さ予測
- Authors: Muhammet Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel,
- Abstract要約: TopoMaskV3は、2つの新しい密度予測ヘッドを介して、頑丈でスタンドアロンな3D予測器である。
我々は,道路トポロジ評価において,地理的データ漏洩に最初に対処した人物である。
TopoMaskV3は、地理的に結合しないベンチマークで最先端の28.5OLSを達成する。
- 参考スコア(独自算出の注目度): 6.043109546012043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mask-based paradigms for road topology understanding, such as TopoMaskV2, offer a complementary alternative to query-based methods by generating centerlines via a dense rasterized intermediate representation. However, prior work was limited to 2D predictions and suffered from severe discretization artifacts, necessitating fusion with parametric heads. We introduce TopoMaskV3, which advances this pipeline into a robust, standalone 3D predictor via two novel dense prediction heads: a dense offset field for sub-grid discretization correction within the existing BEV resolution, and a dense height map for direct 3D estimation. Beyond the architecture, we are the first to address geographic data leakage in road topology evaluation by introducing (1) geographically distinct splits to prevent memorization and ensure fair generalization, and (2) a long-range (+/-100 m) benchmark. TopoMaskV3 achieves state-of-the-art 28.5 OLS on this geographically disjoint benchmark, surpassing all prior methods. Our analysis shows that the mask representation is more robust to geographic overfitting than Bezier, while LiDAR fusion is most beneficial at long range and exhibits larger relative gains on the overlapping original split, suggesting overlap-induced memorization effects.
- Abstract(参考訳): TopoMaskV2のような道路トポロジー理解のためのマスクベースのパラダイムは、密集したラスタ化中間表現を通じて中心線を生成することで、クエリベースの手法の補完的な代替手段を提供する。
しかし、事前の作業は2次元の予測に限られており、パラメトリックヘッドとの融合を必要とする重度の離散化アーティファクトに悩まされていた。
本稿では,このパイプラインを,既存のBEV解像度内におけるサブグリッド離散化補正のための高密度オフセットフィールドと,直接3次元推定のための高密度マップという,2つの新しい高密度予測ヘッドを介して,頑健でスタンドアロンな3次元予測器へと前進させるTopoMaskV3を紹介する。
アーキテクチャ以外では,(1)暗記を防止し,公平な一般化を確保するために,(1)地理的に異なる分割を導入し,(2)長距離(+/100m)ベンチマークを導入することで,道路地形評価における地理的データ漏洩に対処する最初の試みである。
TopoMaskV3はこの地理的に不連続なベンチマークで最先端の28.5 OLSを達成し、以前のすべてのメソッドを上回ります。
解析の結果,マスク表現はベジエよりも地理的過適合性が強く,LiDAR融合は長い範囲で有益であり,重複する元の分割に対して相対的な利得を示し,重複による記憶効果が示唆された。
関連論文リスト
- Fine-Grained Representation for Lane Topology Reasoning [9.999635859285341]
微粒レーントポロジー推論フレームワーク(TopoFG)を提案する。
鳥眼ビュー(Bird's-eye-view, BEV)機能から, きめ細かいクエリによるトポロジー予測に分解する。
OLSは48.0でサブセットAは48.0、サブセットBは45.4である。
論文 参考訳(メタデータ) (2025-11-16T13:24:30Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文 参考訳(メタデータ) (2025-09-05T14:37:31Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文 参考訳(メタデータ) (2025-03-13T01:35:04Z) - Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark [52.339936954958034]
前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。
本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。
さらに,渡り鳥保護のための自然シナリオにおいて,まず,大規模なビデオバードカウントデータセットであるDroneBirdを提案する。
論文 参考訳(メタデータ) (2024-11-20T06:08:21Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。