論文の概要: Unified Driving Tokens: Representation- and Geometry-Guided Discrete Tokenizer for Driving World Models and Planning
- arxiv url: http://arxiv.org/abs/2606.01935v2
- Date: Thu, 04 Jun 2026 06:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.005142
- Title: Unified Driving Tokens: Representation- and Geometry-Guided Discrete Tokenizer for Driving World Models and Planning
- Title(参考訳): 統一運転トークン:世界モデルと計画のための表現型および幾何学型離散学習ツール
- Authors: Ziyang Yao, Zeyu Zhu, YunCheng Jiang, Zibin Guo, Huijing Zhao,
- Abstract要約: 共同管理下で離散トークンを学習する表現誘導型および幾何学強化型トークン化器を提案する。
NAVSIMの実験では、再構成の忠実度と表現整合性、固定デコーダによる競合計画性能、一致した設定での生成品質が向上した。
- 参考スコア(独自算出の注目度): 13.385292682258147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete visual tokens should provide a compact representation for both token-based world modeling and planning in autonomous driving. However, most tokenizers are inherited from image generation and are optimized mainly for pixel reconstruction, which may leave a gap between what is easy to generate and what is useful to decode for driving decisions. We present a representation-guided and geometry-enhanced tokenizer that learns discrete tokens under joint supervision. The tokenizer aligns its discrete bottleneck with a frozen DINO feature space through feature decoding, while preserving appearance via RGB reconstruction with perceptual and adversarial losses. To inject geometric state-related cues, we add adjacent-frame depth and relative-pose supervision during training and stabilize joint objectives with multi-codebook quantization. We evaluate the same learned tokens with a lightweight planning readout and a GPT-style next-token world model. Experiments on NAVSIM show improved reconstruction fidelity and representation consistency, competitive planning performance under a fixed decoder, and better generative quality under matched settings.
- Abstract(参考訳): 離散的な視覚トークンは、自律運転におけるトークンベースの世界モデリングと計画の両方のためのコンパクトな表現を提供する必要がある。
しかし、ほとんどのトークンライザは画像生成から受け継がれており、主に画素再構成に最適化されているため、生成し易いものと、決定を下すのに有用なものの間にギャップが残る可能性がある。
共同管理下で離散トークンを学習する表現誘導型および幾何学強化型トークン化器を提案する。
トークン化剤はその離散的なボトルネックを特徴復号化を通じて凍結したDINO特徴空間と整合させ、外見は知覚的および敵対的損失を伴うRGB再構成を通して保存する。
幾何学的状態関連キューを注入するために、トレーニング中に隣接するフレーム深さと相対的な位置の監視を加え、マルチコードブックの量子化で関節の目的を安定化する。
我々は、軽量な計画読み出しとGPTスタイルの次世代世界モデルを用いて、同じ学習トークンを評価した。
NAVSIMの実験では、再構成の忠実度と表現整合性、固定デコーダによる競合計画性能、一致した設定での生成品質が向上した。
関連論文リスト
- HiTokSR: A Coarse-to-Fine Tokenizer with Hierarchical Codebooks for High-Fidelity Real-World Image Super-Resolution [2.4519602914420475]
階層的なトークン予測フレームワークであるHiTokSRを提案する。
この結果から,HiTokSRは品質と再現性の両方において最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-05-31T11:02:58Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Learning to Expand Images for Efficient Visual Autoregressive Modeling [26.400433163290586]
本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
論文 参考訳(メタデータ) (2025-11-19T14:55:07Z) - Adapting Self-Supervised Representations as a Latent Space for Efficient Generation [18.746963205066688]
RepTokは、単一の連続潜在トークンを使用してイメージを表現する生成モデリングフレームワークである。
RepTokは、クラス条件のImageNet生成における競合的な結果を達成し、テキストと画像の合成に自然に拡張する。
論文 参考訳(メタデータ) (2025-10-16T12:43:03Z) - ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。