論文の概要: HENet++: Hybrid Encoding and Multi-task Learning for 3D Perception and End-to-end Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.07106v1
- Date: Mon, 10 Nov 2025 13:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.282696
- Title: HENet++: Hybrid Encoding and Multi-task Learning for 3D Perception and End-to-end Autonomous Driving
- Title(参考訳): HENet++: 3D知覚とエンドツーエンドの自動運転のためのハイブリッドエンコーディングとマルチタスク学習
- Authors: Zhongyu Xia, Zhiwei Lin, Yongtao Wang, Ming-Hsuan Yang,
- Abstract要約: 本稿では,マルチタスク3次元認識とエンドツーエンド自動運転のためのHENetおよびHENet++フレームワークを提案する。
具体的には,短期フレームには大型画像エンコーダ,長期フレームには小型画像エンコーダを用いたハイブリッド画像エンコーダネットワークを提案する。
本フレームワークは,高密度かつスパースな特徴を同時に抽出し,異なるタスクに対してより適切な表現を提供し,累積誤差を低減し,計画モジュールにより包括的な情報を提供する。
- 参考スコア(独自算出の注目度): 47.368036613468455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Three-dimensional feature extraction is a critical component of autonomous driving systems, where perception tasks such as 3D object detection, bird's-eye-view (BEV) semantic segmentation, and occupancy prediction serve as important constraints on 3D features. While large image encoders, high-resolution images, and long-term temporal inputs can significantly enhance feature quality and deliver remarkable performance gains, these techniques are often incompatible in both training and inference due to computational resource constraints. Moreover, different tasks favor distinct feature representations, making it difficult for a single model to perform end-to-end inference across multiple tasks while maintaining accuracy comparable to that of single-task models. To alleviate these issues, we present the HENet and HENet++ framework for multi-task 3D perception and end-to-end autonomous driving. Specifically, we propose a hybrid image encoding network that uses a large image encoder for short-term frames and a small one for long-term frames. Furthermore, our framework simultaneously extracts both dense and sparse features, providing more suitable representations for different tasks, reducing cumulative errors, and delivering more comprehensive information to the planning module. The proposed architecture maintains compatibility with various existing 3D feature extraction methods and supports multimodal inputs. HENet++ achieves state-of-the-art end-to-end multi-task 3D perception results on the nuScenes benchmark, while also attaining the lowest collision rate on the nuScenes end-to-end autonomous driving benchmark.
- Abstract(参考訳): 3次元特徴抽出は、3次元物体検出、鳥の目視(BEV)セマンティックセグメンテーション、占領予測といった知覚タスクが3次元特徴の重要な制約となる自律運転システムにおいて重要な要素である。
大きな画像エンコーダ、高解像度画像、長期の時間入力は、特徴品質を大幅に向上させ、優れた性能向上をもたらすが、これらの技術は、計算資源の制約により、トレーニングと推論の両方において相容れないことが多い。
さらに、異なるタスクは異なる特徴表現を好んでおり、単一のモデルが複数のタスクにわたってエンドツーエンドの推論を行うのを難しくし、シングルタスクモデルと同等の精度を維持する。
これらの問題を緩和するために,マルチタスク3D認識とエンドツーエンド自動運転のためのHENetおよびHENet++フレームワークを提案する。
具体的には,短期フレームには大型画像エンコーダ,長期フレームには小型画像エンコーダを用いたハイブリッド画像エンコーダネットワークを提案する。
さらに,本フレームワークは,高密度かつスパースな特徴を同時に抽出し,異なるタスクに対してより適切な表現を提供し,累積誤差を低減し,計画モジュールにより包括的な情報を提供する。
提案アーキテクチャは,既存の3次元特徴抽出手法との互換性を維持し,マルチモーダル入力をサポートする。
HENet++は、nuScenesベンチマークで最先端のエンドツーエンドのマルチタスク3D知覚結果を達成すると同時に、nuScenesエンドツーエンドの自動運転ベンチマークで最低衝突率を達成する。
関連論文リスト
- HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras [45.739224968302565]
本稿では,マルチタスク3次元知覚のためのHENetというエンドツーエンドフレームワークを提案する。
具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。
各認識タスクの特徴により、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。
論文 参考訳(メタデータ) (2024-04-03T07:10:18Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。