論文の概要: UniGeo: A Unified 3D Indoor Object Detection Framework Integrating Geometry-Aware Learning and Dynamic Channel Gating
- arxiv url: http://arxiv.org/abs/2601.22616v1
- Date: Fri, 30 Jan 2026 06:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.265253
- Title: UniGeo: A Unified 3D Indoor Object Detection Framework Integrating Geometry-Aware Learning and Dynamic Channel Gating
- Title(参考訳): UniGeo: 幾何学学習と動的チャネルゲーティングを統合した3次元室内物体検出フレームワーク
- Authors: Xing Yi, Jinyang Huang, Feng-Qi Cui, Anyang Tong, Ruimin Wang, Liu Liu, Dan Guo,
- Abstract要約: 我々はUniGeoと呼ばれる3次元屋内検出フレームワークを提案する。
まず,空間的関係から特徴量への学習可能なマッピングを確立する幾何学的学習モジュールを提案する。
そこで本研究では,学習可能なチャネルワイド重み付けを利用する動的チャネルゲーティング機構を提案する。
- 参考スコア(独自算出の注目度): 20.395441875640955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing adoption of robotics and augmented reality in real-world applications has driven considerable research interest in 3D object detection based on point clouds. While previous methods address unified training across multiple datasets, they fail to model geometric relationships in sparse point cloud scenes and ignore the feature distribution in significant areas, which ultimately restricts their performance. To deal with this issue, a unified 3D indoor detection framework, called UniGeo, is proposed. To model geometric relations in scenes, we first propose a geometry-aware learning module that establishes a learnable mapping from spatial relationships to feature weights, which enabes explicit geometric feature enhancement. Then, to further enhance point cloud feature representation, we propose a dynamic channel gating mechanism that leverages learnable channel-wise weighting. This mechanism adaptively optimizes features generated by the sparse 3D U-Net network, significantly enhancing key geometric information. Extensive experiments on six different indoor scene datasets clearly validate the superior performance of our method.
- Abstract(参考訳): 現実の応用におけるロボット工学や拡張現実の普及は、ポイントクラウドに基づく3Dオブジェクト検出にかなりの研究関心を惹き付けている。
以前の手法では、複数のデータセットをまたいだ統合トレーニングに対処していたが、疎ポイントクラウドシーンにおける幾何学的関係のモデル化に失敗し、重要な領域における機能の分散を無視し、最終的にパフォーマンスを制限した。
この問題に対処するため、UniGeoと呼ばれる統合された3D屋内検出フレームワークが提案されている。
まず,空間的関係から特徴量への学習可能なマッピングを確立する幾何学学習モジュールを提案する。
そこで本研究では,学習可能なチャネルワイド重み付けを利用する動的チャネルゲーティング機構を提案する。
この機構はスパース3D U-Netネットワークによって生成された特徴を適応的に最適化し、鍵幾何学的情報を大幅に強化する。
6つの屋内シーンデータセットの大規模な実験により,本手法の優れた性能が明らかとなった。
関連論文リスト
- GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection [19.447180486374357]
近年, 半教師付き3次元物体検出が活発な研究領域として出現している。
そこで我々は,GeoTeacherを提案し,限られた学習データでオブジェクトの幾何学的関係を捉える学生モデルの能力を高める。
本稿では,オブジェクトジオメトリの多様性を高めるために,ボクセル単位のデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2025-12-29T02:24:18Z) - GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images [54.602947113980655]
人景接触の幾何レベルを推定することは、特定の接触面点を3次元の人間ジオメトリに接することを目的としている。
GRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)は,3次元接触推定のための新しいパラダイムである。
ポイントクラウドエンコーダ/デコーダアーキテクチャと階層的特徴抽出と融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2025-05-10T09:25:46Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。