論文の概要: Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2512.10947v2
- Date: Fri, 12 Dec 2025 19:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 13:08:04.451762
- Title: Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving
- Title(参考訳): エンド・ツー・エンド運転における効率的なマルチカメラ符号化に向けて
- Authors: Jiawei Yang, Ziyu Chen, Yurong You, Yan Wang, Yiming Li, Yuxiao Chen, Boyi Li, Boris Ivanovic, Marco Pavone, Yue Wang,
- Abstract要約: 本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
- 参考スコア(独自算出の注目度): 54.85072592658933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Flex, an efficient and effective scene encoder that addresses the computational bottleneck of processing high-volume multi-camera data in end-to-end autonomous driving. Flex employs a small set of learnable scene tokens to jointly encode information from all image tokens across different cameras and timesteps. By design, our approach is geometry-agnostic, learning a compact scene representation directly from data without relying on the explicit 3D inductive biases, such as Bird-Eye-View (BEV), occupancy or tri-plane representations, which are common in prior work. This holistic encoding strategy aggressively compresses the visual input for the downstream Large Language Model (LLM) based policy model. Evaluated on a large-scale proprietary dataset of 20,000 driving hours, our Flex achieves 2.2x greater inference throughput while improving driving performance by a large margin compared to state-of-the-art methods. Furthermore, we show that these compact scene tokens develop an emergent capability for scene decomposition without any explicit supervision. Our findings challenge the prevailing assumption that 3D priors are necessary, demonstrating that a data-driven, joint encoding strategy offers a more scalable, efficient and effective path for future autonomous driving systems.
- Abstract(参考訳): エンド・ツー・エンドの自動運転において,高ボリュームのマルチカメラデータを処理する際の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
Flexは学習可能なシーントークンの小さなセットを使って、さまざまなカメラやタイムステップにまたがるすべての画像トークンから情報を共同でエンコードします。
提案手法は,BEV (Bird-Eye-View) や占有率,あるいは3次元平面表現といった明示的な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
この全体的な符号化戦略は、下流のLarge Language Model(LLM)ベースのポリシーモデルに対する視覚的入力を積極的に圧縮する。
2万時間の大規模プロプライエタリなデータセットに基づいて評価し、私たちのFlexは2.2倍の推論スループットを実現します。
さらに、これらのコンパクトなシーントークンは、明示的な監督を伴わずに、シーン分解の創発的な能力を発揮することを示す。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
関連論文リスト
- Efficient Multi-Camera Tokenization with Triplanes for End-to-End Driving [33.2092963387255]
自動回帰トランスフォーマーは、エンド・ツー・エンドのロボットと自律走行車(AV)ポリシーアーキテクチャとしてますます普及している。
本稿では,3次元ニューラル再構成とレンダリングの最近の進歩を生かした,効率的な三面体ベースのマルチカメラトークン化戦略を提案する。
大規模AVデータセットと最先端のニューラルシミュレータの実験は、我々のアプローチが現在の画像パッチベースのトークン化戦略よりも大幅に節約できることを示した。
論文 参考訳(メタデータ) (2025-06-13T21:56:52Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。