論文の概要: Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2506.12251v1
- Date: Fri, 13 Jun 2025 21:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.601286
- Title: Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving
- Title(参考訳): 終端駆動のためのトリプレーンを用いたマルチカメラの効率的なトケライゼーション
- Authors: Boris Ivanovic, Cristiano Saltori, Yurong You, Yan Wang, Wenjie Luo, Marco Pavone,
- Abstract要約: 自動回帰トランスフォーマーは、エンド・ツー・エンドのロボットと自律走行車(AV)ポリシーアーキテクチャとしてますます普及している。
本稿では,3次元ニューラル再構成とレンダリングの最近の進歩を生かした,効率的な三面体ベースのマルチカメラトークン化戦略を提案する。
大規模AVデータセットと最先端のニューラルシミュレータの実験は、我々のアプローチが現在の画像パッチベースのトークン化戦略よりも大幅に節約できることを示した。
- 参考スコア(独自算出の注目度): 33.2092963387255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Transformers are increasingly being deployed as end-to-end robot and autonomous vehicle (AV) policy architectures, owing to their scalability and potential to leverage internet-scale pretraining for generalization. Accordingly, tokenizing sensor data efficiently is paramount to ensuring the real-time feasibility of such architectures on embedded hardware. To this end, we present an efficient triplane-based multi-camera tokenization strategy that leverages recent advances in 3D neural reconstruction and rendering to produce sensor tokens that are agnostic to the number of input cameras and their resolution, while explicitly accounting for their geometry around an AV. Experiments on a large-scale AV dataset and state-of-the-art neural simulator demonstrate that our approach yields significant savings over current image patch-based tokenization strategies, producing up to 72% fewer tokens, resulting in up to 50% faster policy inference while achieving the same open-loop motion planning accuracy and improved offroad rates in closed-loop driving simulations.
- Abstract(参考訳): 自動回帰トランスフォーマーは、そのスケーラビリティと一般化のためにインターネットスケールの事前トレーニングを活用する可能性から、エンドツーエンドのロボットおよび自動運転車(AV)ポリシーアーキテクチャとして、ますます多くデプロイされている。
したがって、センサデータを効率的にトークン化することは、組み込みハードウェア上でそのようなアーキテクチャのリアルタイム実現性を確保するために最重要である。
この目的のために,3次元ニューラルコンストラクションとレンダリングの最近の進歩を活用して,入力カメラの数や解像度に依存しないセンサトークンを生成するとともに,AV周辺の幾何学を明示的に考慮した,効率的な三面体ベースのマルチカメラトークン化戦略を提案する。
大規模AVデータセットと最先端のニューラルネットワークシミュレータの実験により、我々のアプローチは、現在の画像パッチベースのトークン化戦略よりも大幅に削減され、トークンが最大で72%減少し、同じオープンループ動作計画精度を達成しつつ、ポリシー推論を最大50%高速化し、クローズドループ駆動シミュレーションにおけるオフロード率を改善した。
関連論文リスト
- Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction [0.8458547573621331]
本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。
提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。
提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
論文 参考訳(メタデータ) (2024-11-11T10:35:23Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Efficient Transformer-based 3D Object Detection with Dynamic Token
Halting [19.88560740238657]
本稿では,異なる層でトークンを動的に停止させることにより,トランスフォーマーを用いた3次元物体検出器の高速化に有効な手法を提案する。
トークンの停止は微分不可能な操作であるが,本手法はエンドツーエンドの学習を可能にする。
我々のフレームワークでは、停止トークンを再利用して、簡単なトークンリサイクル機構を通じてモデルの予測を知らせることができます。
論文 参考訳(メタデータ) (2023-03-09T07:26:49Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - YOLOpeds: Efficient Real-Time Single-Shot Pedestrian Detection for Smart
Camera Applications [2.588973722689844]
この研究は、スマートカメラアプリケーションにおけるディープラーニングに基づく歩行者検出の効率的な展開のために、精度と速度の良好なトレードオフを達成するという課題に対処する。
分離可能な畳み込みに基づいて計算効率の良いアーキテクチャを導入し、層間密結合とマルチスケール機能融合を提案する。
全体として、YOLOpedsは、既存のディープラーニングモデルよりも86%の速度で、毎秒30フレーム以上のリアルタイム持続的な操作を提供する。
論文 参考訳(メタデータ) (2020-07-27T09:50:11Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。