論文の概要: Driving on Registers
- arxiv url: http://arxiv.org/abs/2601.05083v1
- Date: Thu, 08 Jan 2026 16:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.278108
- Title: Driving on Registers
- Title(参考訳): 登録の運転
- Authors: Ellington Kirby, Alexandre Boulch, Yihong Xu, Yuan Yin, Gilles Puy, Éloi Zablocki, Andrei Bursuc, Spyros Gidaris, Renaud Marlet, Florent Bartoccioni, Anh-Quan Cao, Nermin Samet, Tuan-Hung VU, Matthieu Cord,
- Abstract要約: DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。
提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。
この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
- 参考スコア(独自算出の注目度): 95.27138642798472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DrivoR, a simple and efficient transformer-based architecture for end-to-end autonomous driving. Our approach builds on pretrained Vision Transformers (ViTs) and introduces camera-aware register tokens that compress multi-camera features into a compact scene representation, significantly reducing downstream computation without sacrificing accuracy. These tokens drive two lightweight transformer decoders that generate and then score candidate trajectories. The scoring decoder learns to mimic an oracle and predicts interpretable sub-scores representing aspects such as safety, comfort, and efficiency, enabling behavior-conditioned driving at inference. Despite its minimal design, DrivoR outperforms or matches strong contemporary baselines across NAVSIM-v1, NAVSIM-v2, and the photorealistic closed-loop HUGSIM benchmark. Our results show that a pure-transformer architecture, combined with targeted token compression, is sufficient for accurate, efficient, and adaptive end-to-end driving. Code and checkpoints will be made available via the project page.
- Abstract(参考訳): 我々は、エンドツーエンド自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャであるDrivoRを提案する。
提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入し、精度を犠牲にすることなくダウンストリーム計算を大幅に削減する。
これらのトークンは2つの軽量トランスフォーマーデコーダを駆動し、候補軌道を生成してスコア付けする。
スコアリングデコーダは、オラクルを模倣することを学び、安全、快適、効率などの側面を表す解釈可能なサブスコアを予測し、推論時の動作条件付き運転を可能にする。
最小限の設計にもかかわらず、DrivoRはNAVSIM-v1、NAVSIM-v2、およびフォトリアリスティッククローズループHUGSIMベンチマークで優れた現代ベースラインを誇っている。
この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
コードとチェックポイントはプロジェクトページから入手できる。
関連論文リスト
- Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving [54.85072592658933]
本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions [1.0411839100853515]
MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。
ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
論文 参考訳(メタデータ) (2025-07-29T12:46:36Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。