論文の概要: SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
- arxiv url: http://arxiv.org/abs/2602.11656v1
- Date: Thu, 12 Feb 2026 07:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.691119
- Title: SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
- Title(参考訳): SToRM:効率的なエンド・ツー・エンド自動運転に向けたマルチモーダルLCMのトーケン削減
- Authors: Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Ho Gun Park, Il Yong Chun,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)のための第1回スーパービジョントークン削減フレームワークを提案する。
提案フレームワークは,3つの重要な要素から構成される。第1に,短期スライディングウィンドウを用いた軽量な重要度予測器は,トークンの重要度を推定する。第2に,教師付きトレーニング手法では,全方向LPMパスから擬似スーパービジョン信号を取得するための補助パスを用いる。第3に,アンカーコンテキストマージモジュールパーティションをアンカートークンとコンテキストトークンにマージし,コンテキストトークンを関連するアンカーにマージすることで,情報損失を最小限に抑えながら冗長性を低減できる。LangAutoベンチマークの実験では,SToRMが最先端Eより優れていることを示す。
- 参考スコア(独自算出の注目度): 11.13872942531757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, end-to-end (E2E) driving systems that predict control commands directly from sensor data have achieved significant advancements. For safe driving in unexpected scenarios, these systems may additionally rely on human interventions such as natural language instructions. Using a multi-modal large language model (MLLM) facilitates human-vehicle interaction and can improve performance in such scenarios. However, this approach requires substantial computational resources due to its reliance on an LLM and numerous visual tokens from sensor inputs, which are limited in autonomous vehicles. Many MLLM studies have explored reducing visual tokens, but often suffer end-task performance degradation compared to using all tokens. To enable efficient E2E driving while maintaining performance comparable to using all tokens, this paper proposes the first Supervised Token Reduction framework for multi-modal LLMs (SToRM). The proposed framework consists of three key elements. First, a lightweight importance predictor with short-term sliding windows estimates token importance scores. Second, a supervised training approach uses an auxiliary path to obtain pseudo-supervision signals from an all-token LLM pass. Third, an anchor-context merging module partitions tokens into anchors and context tokens, and merges context tokens into relevant anchors to reduce redundancy while minimizing information loss. Experiments on the LangAuto benchmark show that SToRM outperforms state-of-the-art E2E driving MLLMs under the same reduced-token budget, maintaining all-token performance while reducing computational cost by up to 30x.
- Abstract(参考訳): 自律運転では、センサデータから直接制御コマンドを予測するエンド・ツー・エンド(E2E)駆動システムが大きな進歩を遂げている。
予期せぬシナリオでの安全な運転のために、これらのシステムは自然言語命令のような人間の介入にも依存する。
MLLM(Multi-modal large language model)を用いることで、車同士の相互作用が促進され、そのようなシナリオのパフォーマンスが向上する。
しかし、このアプローチはLLMへの依存と、自動運転車に限られるセンサー入力からの多くの視覚的トークンにより、かなりの計算資源を必要とする。
多くのMLLM研究は、視覚的トークンを減らすことを検討したが、全てのトークンを使用する場合と比較して、エンドタスクのパフォーマンス劣化に悩まされることが多い。
本報告では, マルチモーダルLCM(SToRM)のための第1回スーパービジョントークン削減フレームワークを提案する。
提案するフレームワークは,3つの重要な要素で構成されている。
第一に、短期スライディングウインドウを用いた軽量重要度予測器はトークン重要度スコアを推定する。
第2に、教師付きトレーニングアプローチでは、補助パスを使用して、オールトーケンLSMパスから擬似スーパービジョン信号を取得する。
第3に、アンカーコンテキストのマージモジュールがトークンをアンカーとコンテキストトークンに分割し、コンテキストトークンを関連するアンカーにマージすることで、情報損失を最小限に抑えながら冗長性を低減する。
LangAutoベンチマークの実験によると、SToRMは最先端のE2E駆動MLLMを同じ予算で性能良くし、全トーケン性能を維持しつつ、計算コストを最大30倍に削減している。
関連論文リスト
- ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models [4.273730624882391]
視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T00:28:55Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。