論文の概要: Enhancing Steering Estimation with Semantic-Aware GNNs
- arxiv url: http://arxiv.org/abs/2503.17153v1
- Date: Fri, 21 Mar 2025 13:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:34.854569
- Title: Enhancing Steering Estimation with Semantic-Aware GNNs
- Title(参考訳): 意味認識型GNNによるステアリング推定の強化
- Authors: Fouad Makiyeh, Huy-Dung Nguyen, Patrick Chareyre, Ramin Hasani, Marc Blanchon, Daniela Rus,
- Abstract要約: ハイブリッドアーキテクチャは、時間的モデリングのための3Dニューラルネットワークモデルとリカレントニューラルネットワーク(RNN)を組み合わせる。
我々は4つのハイブリッド3Dモデルを評価し、いずれも2Dのみのベースラインを上回った。
我々は、KITTIデータセットに対するアプローチを検証し、2Dのみのモデルよりも71%改善した。
- 参考スコア(独自算出の注目度): 41.89219383258699
- License:
- Abstract: Steering estimation is a critical task in autonomous driving, traditionally relying on 2D image-based models. In this work, we explore the advantages of incorporating 3D spatial information through hybrid architectures that combine 3D neural network models with recurrent neural networks (RNNs) for temporal modeling, using LiDAR-based point clouds as input. We systematically evaluate four hybrid 3D models, all of which outperform the 2D-only baseline, with the Graph Neural Network (GNN) - RNN model yielding the best results. To reduce reliance on LiDAR, we leverage a pretrained unified model to estimate depth from monocular images, reconstructing pseudo-3D point clouds. We then adapt the GNN-RNN model, originally designed for LiDAR-based point clouds, to work with these pseudo-3D representations, achieving comparable or even superior performance compared to the LiDAR-based model. Additionally, the unified model provides semantic labels for each point, enabling a more structured scene representation. To further optimize graph construction, we introduce an efficient connectivity strategy where connections are predominantly formed between points of the same semantic class, with only 20\% of inter-class connections retained. This targeted approach reduces graph complexity and computational cost while preserving critical spatial relationships. Finally, we validate our approach on the KITTI dataset, achieving a 71% improvement over 2D-only models. Our findings highlight the advantages of 3D spatial information and efficient graph construction for steering estimation, while maintaining the cost-effectiveness of monocular images and avoiding the expense of LiDAR-based systems.
- Abstract(参考訳): ステアリング推定は、伝統的に2D画像ベースのモデルに依存して、自律運転において重要なタスクである。
本研究では,LDARに基づく点雲を入力として,3次元ニューラルネットワークモデルと時間的モデリングのためのリカレントニューラルネットワーク(RNN)を組み合わせたハイブリッドアーキテクチャによる3次元空間情報の導入の利点について検討する。
我々は4つのハイブリッド3Dモデルを体系的に評価し、いずれも2Dのみのベースラインを上回り、グラフニューラルネットワーク(GNN)-RNNモデルが最も良い結果を得た。
LiDARへの依存を軽減するため、事前訓練された統一モデルを用いて単眼画像から深度を推定し、擬似3D点雲を再構成する。
次に、元々LiDARベースの点雲用に設計されたGNN-RNNモデルを、これらの擬似3D表現に適応させ、LiDARベースのモデルと同等またはそれ以上の性能を達成する。
さらに、統一モデルは各ポイントにセマンティックラベルを提供し、より構造化されたシーン表現を可能にする。
グラフ構築をさらに最適化するために、同じ意味クラスの点間の接続が、クラス間の接続の20%しか保持しない効率的な接続戦略を導入する。
この目的のアプローチは、重要な空間関係を保ちながら、グラフの複雑さと計算コストを削減する。
最後に、KITTIデータセットに対する我々のアプローチを検証し、2Dのみのモデルよりも71%改善した。
本研究は,モノクロ画像のコスト効率を保ちつつ,LiDARシステムによるコストを回避しつつ,3次元空間情報の利点と操舵推定のためのグラフ構築の効率化を強調した。
関連論文リスト
- Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。
我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。
3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T06:48:01Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。