論文の概要: SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
- arxiv url: http://arxiv.org/abs/2602.11656v1
- Date: Thu, 12 Feb 2026 07:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.691119
- Title: SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
- Title(参考訳): SToRM:効率的なエンド・ツー・エンド自動運転に向けたマルチモーダルLCMのトーケン削減
- Authors: Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Ho Gun Park, Il Yong Chun,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)のための第1回スーパービジョントークン削減フレームワークを提案する。
提案フレームワークは,3つの重要な要素から構成される。第1に,短期スライディングウィンドウを用いた軽量な重要度予測器は,トークンの重要度を推定する。第2に,教師付きトレーニング手法では,全方向LPMパスから擬似スーパービジョン信号を取得するための補助パスを用いる。第3に,アンカーコンテキストマージモジュールパーティションをアンカートークンとコンテキストトークンにマージし,コンテキストトークンを関連するアンカーにマージすることで,情報損失を最小限に抑えながら冗長性を低減できる。LangAutoベンチマークの実験では,SToRMが最先端Eより優れていることを示す。
- 参考スコア(独自算出の注目度): 11.13872942531757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, end-to-end (E2E) driving systems that predict control commands directly from sensor data have achieved significant advancements. For safe driving in unexpected scenarios, these systems may additionally rely on human interventions such as natural language instructions. Using a multi-modal large language model (MLLM) facilitates human-vehicle interaction and can improve performance in such scenarios. However, this approach requires substantial computational resources due to its reliance on an LLM and numerous visual tokens from sensor inputs, which are limited in autonomous vehicles. Many MLLM studies have explored reducing visual tokens, but often suffer end-task performance degradation compared to using all tokens. To enable efficient E2E driving while maintaining performance comparable to using all tokens, this paper proposes the first Supervised Token Reduction framework for multi-modal LLMs (SToRM). The proposed framework consists of three key elements. First, a lightweight importance predictor with short-term sliding windows estimates token importance scores. Second, a supervised training approach uses an auxiliary path to obtain pseudo-supervision signals from an all-token LLM pass. Third, an anchor-context merging module partitions tokens into anchors and context tokens, and merges context tokens into relevant anchors to reduce redundancy while minimizing information loss. Experiments on the LangAuto benchmark show that SToRM outperforms state-of-the-art E2E driving MLLMs under the same reduced-token budget, maintaining all-token performance while reducing computational cost by up to 30x.
- Abstract(参考訳): 自律運転では、センサデータから直接制御コマンドを予測するエンド・ツー・エンド(E2E)駆動システムが大きな進歩を遂げている。
予期せぬシナリオでの安全な運転のために、これらのシステムは自然言語命令のような人間の介入にも依存する。
MLLM(Multi-modal large language model)を用いることで、車同士の相互作用が促進され、そのようなシナリオのパフォーマンスが向上する。
しかし、このアプローチはLLMへの依存と、自動運転車に限られるセンサー入力からの多くの視覚的トークンにより、かなりの計算資源を必要とする。
多くのMLLM研究は、視覚的トークンを減らすことを検討したが、全てのトークンを使用する場合と比較して、エンドタスクのパフォーマンス劣化に悩まされることが多い。
本報告では, マルチモーダルLCM(SToRM)のための第1回スーパービジョントークン削減フレームワークを提案する。
提案するフレームワークは,3つの重要な要素で構成されている。
第一に、短期スライディングウインドウを用いた軽量重要度予測器はトークン重要度スコアを推定する。
第2に、教師付きトレーニングアプローチでは、補助パスを使用して、オールトーケンLSMパスから擬似スーパービジョン信号を取得する。
第3に、アンカーコンテキストのマージモジュールがトークンをアンカーとコンテキストトークンに分割し、コンテキストトークンを関連するアンカーにマージすることで、情報損失を最小限に抑えながら冗長性を低減する。
LangAutoベンチマークの実験によると、SToRMは最先端のE2E駆動MLLMを同じ予算で性能良くし、全トーケン性能を維持しつつ、計算コストを最大30倍に削減している。
関連論文リスト
- ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models [4.273730624882391]
視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T00:28:55Z) - Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。
また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。
提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T17:59:53Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。
MLLMの自己注意機構を複合注意機構に変更した。
EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。
本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。