論文の概要: Hyperbolic Distillation: Geometry-Guided Cross-Modal Transfer for Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2605.09899v1
- Date: Mon, 11 May 2026 02:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.477958
- Title: Hyperbolic Distillation: Geometry-Guided Cross-Modal Transfer for Robust 3D Object Detection
- Title(参考訳): ハイパーボリック蒸留:ロバスト3次元物体検出のための幾何学誘導クロスモーダルトランスファー
- Authors: Kanglin Ning, Wenrui Li, Houde Quan, Qifan Li, Xingtao Wang, Xiaopeng Fan,
- Abstract要約: クロスモーダルな知識蒸留は、ポイントクラウドと画像特徴を3次元知覚タスクに統合するための効果的な戦略として登場した。
マルチモーダル3次元物体検出(HGC-Det)のための双曲型拘束型クロスモーダル蒸留法を提案する。
本手法は,検出精度と計算コストのトレードオフを改善する。
- 参考スコア(独自算出の注目度): 38.205421996423745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal knowledge distillation has emerged as an effective strategy for integrating point cloud and image features in 3D perception tasks. However, the modality heterogeneity, spatial misalignment, and the representation crisis of multiple modalities often limit the efficient of these cross-modal distillation methods. To address these limitations in existing approaches, we propose a hyperbolic constrained cross-modal distillation method for multimodal 3D object detection (HGC-Det). The proposed HGC-Det framework includes an image branch and a point cloud branch to extract semantic features from two different modalities. The point cloud branch comprises three core components: a 2D semantic-guided voxel optimization component (SGVO), a hyperbolic geometry constrained cross-modal feature transfer component (HFT), and a feature aggregation-based geometry optimization component (FAGO). Specifically, the SGVO component adaptively refines the spatial representation of the 3D branch by leveraging semantic cues from the image branch, thereby mitigating the issue of inadequate representation fusion. The HFT component exploits the intrinsic geometric properties of hyperbolic space to alleviate semantic loss during the fusion of high-dimensional image features and low-dimensional point cloud features. Finally, the FAGO compensates for potential spatial feature degradation introduced by the 2D semantic-guided voxel optimization component. Extensive experiments on indoor datasets (SUN RGB-D, ARKitScenes) and outdoor datasets (KITTI, nuScenes) demonstrate that our method achieves a better trade-off between detection accuracy and computational cost.
- Abstract(参考訳): クロスモーダルな知識蒸留は、ポイントクラウドと画像特徴を3次元知覚タスクに統合するための効果的な戦略として登場した。
しかし、モダリティの不均一性、空間的不整合、複数のモダリティの表現危機はしばしばこれらのクロスモーダル蒸留法の効率を制限している。
既存手法におけるこれらの制限に対処するため,マルチモーダル3次元物体検出(HGC-Det)のための双曲型拘束型クロスモーダル蒸留法を提案する。
提案するHGC-Detフレームワークは、イメージブランチとポイントクラウドブランチを含み、2つの異なるモードから意味的特徴を抽出する。
ポイントクラウドブランチは、3つのコアコンポーネントからなる:2Dセマンティック誘導ボクセル最適化コンポーネント(SGVO)、双曲幾何学制約クロスモーダル特徴伝達コンポーネント(HFT)、特徴集約に基づく幾何最適化コンポーネント(FAGO)。
具体的には、SGVOコンポーネントは、画像ブランチからのセマンティックキューを利用して、3Dブランチの空間表現を適応的に洗練し、不適切な表現融合の問題を緩和する。
HFT成分は双曲空間の固有幾何学的性質を利用して、高次元画像特徴と低次元点雲特徴の融合時の意味損失を軽減する。
最後に、FAGOは、2Dセマンティック誘導ボクセル最適化コンポーネントによって導入された空間的特徴の潜在的な劣化を補償する。
室内データセット(SUN RGB-D, ARKitScenes)と屋外データセット(KITTI, nuScenes)の大規模な実験により,本手法が検出精度と計算コストのトレードオフを向上することを示す。
関連論文リスト
- TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。
我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。
テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文 参考訳(メタデータ) (2026-01-27T06:30:32Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection [24.367371441506116]
ディープニューラルネットワークに基づくマルチモーダル3Dオブジェクト検出は、確かに大きな進歩を遂げている。
しかし,2次元画像から抽出した特徴と3次元点雲から抽出した特徴との間の空間的情報とスケールのずれにより,依然として課題に直面している。
本稿では,3次元から2次元の空間アライメントモジュールと,遅延モードの相互融合モジュールからなる,新しいスケール・スペースアラインド・ラテントフュージョンモデルであるSSLFusionを紹介する。
論文 参考訳(メタデータ) (2025-04-07T15:15:06Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer [4.644319899528183]
LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。
自律運転のシナリオでは、点雲の空間性と空洞性は、ボクセルベースの方法にいくつかの困難をもたらす。
我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-31T08:03:25Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。