論文の概要: The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating
- arxiv url: http://arxiv.org/abs/2603.07135v1
- Date: Sat, 07 Mar 2026 09:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.894967
- Title: The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating
- Title(参考訳): どのトークンが重要かを知るモデル:ノイズゲーティングによる自動トークン選択
- Authors: Landi He, Xiaoyu Yang, Lijian Xu,
- Abstract要約: 視覚トークンは視覚言語モデル(VLM)の推論コストを支配している
容量制約通信として視覚トークンプルーニングを再構成する。
本稿では,軽量なScorerとDenoiserを凍結したVLMにアタッチし,次のトークン予測損失のみをトレーニングするAutoSelectを提案する。
- 参考スコア(独自算出の注目度): 2.503823246244002
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual tokens dominate inference cost in vision-language models (VLMs), yet many carry redundant information. Existing pruning methods alleviate this but typically rely on attention magnitude or similarity scores. We reformulate visual token pruning as capacity constrained communication: given a fixed budget K, the model must allocate limited bandwidth to maximally preserve visual information. We propose AutoSelect, which attaches a lightweight Scorer and Denoiser to a frozen VLM and trains with only the standard next token prediction loss, without auxiliary objectives or extra annotations. During training, a variance preserving noise gate modulates each token's information flow according to its predicted importance so that gradients propagate through all tokens; a diagonal attention Denoiser then recovers the perturbed representations. At inference, only the Scorer and a hard top-K selection remain, adding negligible latency. On ten VLM benchmarks, AutoSelect retains 96.5% of full model accuracy while accelerating LLM prefill by 2.85x with only 0.69 ms overhead, and transfers to different VLM backbones without architecture-specific tuning. Code is available at https://github.com/MedHK23/AutoSelect.
- Abstract(参考訳): 視覚トークンは視覚言語モデル(VLM)の推論コストを支配しているが、その多くは冗長な情報を持っている。
既存のプルーニング法は、これを緩和するが、注意度や類似点のスコアに依存するのが一般的である。
固定予算Kが与えられた場合、視覚情報を最大限に保存するために限られた帯域幅を割り当てなければならない。
本稿では,軽量なScorerとDenoiserを凍結したVLMにアタッチして,補助的な目的や追加アノテーションを使わずに,標準的な次のトークン予測損失のみをトレーニングするAutoSelectを提案する。
トレーニング中、分散保存ノイズゲートは、予測された重要度に応じて各トークンの情報フローを変調し、すべてのトークンを通して勾配が伝播する。
推論時に残るのは、ScorerとハードトップKの選択のみであり、無視可能なレイテンシを追加する。
10のVLMベンチマークでは、AutoSelectは全モデルの精度の96.5%を維持し、LLMプリフィルはわずか0.69msのオーバーヘッドで2.85倍加速し、アーキテクチャ固有のチューニングなしで異なるVLMバックボーンに転送する。
コードはhttps://github.com/MedHK23/AutoSelect.comで入手できる。
関連論文リスト
- Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models [34.12135666939555]
MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
論文 参考訳(メタデータ) (2026-02-13T04:49:27Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。