論文の概要: A Synthetic Benchmark for Collaborative 3D Semantic Occupancy Prediction in V2X Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.17004v1
- Date: Fri, 20 Jun 2025 13:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.472118
- Title: A Synthetic Benchmark for Collaborative 3D Semantic Occupancy Prediction in V2X Autonomous Driving
- Title(参考訳): V2X自動運転における協調的3次元セマンティック動作予測のための総合ベンチマーク
- Authors: Hanlin Wu, Pengfei Lin, Ehsan Javanmardi, Naren Bao, Bo Qian, Hao Si, Manabu Tsukada,
- Abstract要約: 3Dセマンティック占有予測は、自律運転における新たな知覚パラダイムである。
既存の協調認識データセットをCARLAで高分解能なセマンティックボクセルセンサで再生することで拡張する。
本研究では,空間アライメントとアテンションアグリゲーションによるエージェント間特徴融合を行うベースラインモデルを開発した。
- 参考スコア(独自算出の注目度): 3.6538681992157604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction is an emerging perception paradigm in autonomous driving, providing a voxel-level representation of both geometric details and semantic categories. However, the perception capability of a single vehicle is inherently constrained by occlusion, restricted sensor range, and narrow viewpoints. To address these limitations, collaborative perception enables the exchange of complementary information, thereby enhancing the completeness and accuracy. In the absence of a dedicated dataset for collaborative 3D semantic occupancy prediction, we augment an existing collaborative perception dataset by replaying it in CARLA with a high-resolution semantic voxel sensor to provide dense and comprehensive occupancy annotations. In addition, we establish benchmarks with varying prediction ranges designed to systematically assess the impact of spatial extent on collaborative prediction. We further develop a baseline model that performs inter-agent feature fusion via spatial alignment and attention aggregation. Experimental results demonstrate that our baseline model consistently outperforms single-agent models, with increasing gains observed as the prediction range expands.
- Abstract(参考訳): 3Dセマンティック占有予測は、自律運転における新たな知覚パラダイムであり、幾何学的詳細と意味カテゴリーの両方のボクセルレベル表現を提供する。
しかしながら、単一車両の知覚能力は、本質的には閉塞性、制限されたセンサー範囲、狭い視点によって制限される。
これらの制限に対処するため、協調的な知覚により相補的な情報の交換が可能となり、完全性と精度が向上する。
協調的な3Dセマンティック占有予測のための専用のデータセットがないため、CARLAで高精細なセマンティックボクセルセンサで再生することで、既存の協調認識データセットを増強し、密集的で包括的な占有アノテーションを提供する。
さらに,空間的範囲が協調予測に与える影響を体系的に評価するために,様々な予測範囲を持つベンチマークを構築した。
さらに,空間アライメントとアテンションアグリゲーションによるエージェント間特徴融合を行うベースラインモデルを開発した。
実験結果から, 予測範囲が拡大するにつれて, ベースラインモデルは単エージェントモデルより常に優れており, ゲインの増加が観測された。
関連論文リスト
- TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文 参考訳(メタデータ) (2025-03-13T01:35:04Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles [13.167432547990487]
協調的な3Dセマンティック占有予測のための最初の手法を提案する。
セマンティックタスクと占有タスクのハイブリッド融合により、局所的な3Dセマンティック占有予測を改善する。
我々のモデルは、後続の知覚への応用において、最先端の協調的な3D検出技術に勝るセマンティック占有度に依存している。
論文 参考訳(メタデータ) (2024-02-12T13:19:08Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。