論文の概要: DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.00919v1
- Date: Sun, 01 Mar 2026 04:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.413388
- Title: DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving
- Title(参考訳): DriveCode: LLMに基づく自律運転のためのドメイン固有数値符号化
- Authors: Zhiye Wang, Yanbo Jiang, Rui Zhou, Bo Zhang, Fang Zhang, Zhenhua Xu, Yaqin Zhang, Jianqiang Wang,
- Abstract要約: 本稿では、離散テキストトークンではなく、専用の埋め込みとして数値を表す数値符号化手法であるDriveCodeを紹介する。
DriveCodeは、多数のプロジェクタを使用して、数値を言語モデルの隠れた空間にマッピングし、視覚的およびテキスト的機能とのシームレスな統合を可能にする。
- 参考スコア(独自算出の注目度): 24.947943628933036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great promise for autonomous driving. However, discretizing numbers into tokens limits precise numerical reasoning, fails to reflect the positional significance of digits in the training objective, and makes it difficult to achieve both decoding efficiency and numerical precision. These limitations affect both the processing of sensor measurements and the generation of precise control commands, creating a fundamental barrier for deploying LLM-based autonomous driving systems. In this paper, we introduce DriveCode, a novel numerical encoding method that represents numbers as dedicated embeddings rather than discrete text tokens. DriveCode employs a number projector to map numbers into the language model's hidden space, enabling seamless integration with visual and textual features in a unified multimodal sequence. Evaluated on OmniDrive, DriveGPT4, and DriveGPT4-V2 datasets, DriveCode demonstrates superior performance in trajectory prediction and control signal generation, confirming its effectiveness for LLM-based autonomous driving systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律運転に非常に有望であることを示している。
しかし、数値をトークンに識別することは、正確な数値推論を制限し、訓練対象における桁の位置的重要性を反映せず、復号効率と数値精度の両方を達成するのが難しくなる。
これらの制限は、センサー計測の処理と正確な制御コマンドの生成の両方に影響し、LLMベースの自律運転システムを展開するための基本的な障壁を生み出す。
本稿では,離散テキストトークンではなく,数値を専用埋め込みとして表現する新しい数値符号化手法であるDriveCodeを紹介する。
DriveCodeは、多数のプロジェクタを使用して、数値を言語モデルの隠れた空間にマッピングし、統一されたマルチモーダルシーケンスにおける視覚的およびテキスト的機能とのシームレスな統合を可能にする。
OmniDrive、DriveGPT4、DriveGPT4-V2データセットに基づいて評価すると、DriveCodeは軌道予測と制御信号生成において優れた性能を示し、LLMベースの自動運転システムにおけるその有効性を確認している。
関連論文リスト
- LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers [15.4994260281059]
低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-02T16:21:42Z) - SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving [38.21244888074097]
SpaceDriveは、空間情報をテキスト桁トークンの代わりに明示的な位置符号化(PE)として扱う空間認識駆動フレームワークである。
我々は,SpaceDriveがnuScenesデータセットで最先端のオープンループ性能を実現し,Bench2Driveベンチマークで78.02のドライビングスコアを達成したことを示す。
論文 参考訳(メタデータ) (2025-12-11T14:59:07Z) - VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving [90.21844353859454]
視覚コンポーネントを拡張した軽量MLLMアーキテクチャを特徴とする新しいアプローチを提案する。
VLDriveは、パラメータを81%削減しながら最先端の駆動性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T07:14:53Z) - TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving [10.439455144126617]
TinyDriveは、シナリオ駆動におけるマルチビューVQAのための軽量なVLMである。
本モデルは,マルチスケールビジョンエンコーダとトークンとシーケンスの二重レベル優先順位付け機構を含む2つの重要なコンポーネントから構成される。
TinyDriveは、私たちのカスタムキュレートされたVQAデータセットで最初に評価され、その後、パブリックなDriveLMベンチマークでテストされます。
論文 参考訳(メタデータ) (2025-05-21T14:19:24Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Doe-1: Closed-Loop Autonomous Driving with Large World Model [63.99937807085461]
統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。
我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。
計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。
それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。
GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文 参考訳(メタデータ) (2024-12-11T18:59:51Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LMDrive: Closed-Loop End-to-End Driving with Large Language Models [37.910449013471656]
大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
論文 参考訳(メタデータ) (2023-12-12T18:24:15Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。