論文の概要: Stage-adaptive Token Selection for Efficient Omni-modal LLMs
- arxiv url: http://arxiv.org/abs/2605.20035v1
- Date: Tue, 19 May 2026 15:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.50375
- Title: Stage-adaptive Token Selection for Efficient Omni-modal LLMs
- Title(参考訳): 効率的なOmni-modal LLMのためのステージ適応型トークン選択
- Authors: Zijie Xin, Jie Yang, Ruixiang Zhao, Tianyi Wang, Fengyun Rao, Jing Lyu, Xirong Li,
- Abstract要約: om-LLMの層単位でのトークン依存性を解析する。
効率的なom-LLM推論のための訓練不要な段階適応トークン選択法を提案する。
- 参考スコア(独自算出の注目度): 17.161087166882744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal large language models (om-LLMs) achieve unified audio-visual understanding by encoding video and audio into temporally aligned token sequences interleaved at the window level. However, processing these dense non-textual tokens throughout the LLM incurs substantial computational overhead. Although training-free token selection can reduce this cost, existing methods either focus on visual-only inputs or prune om-LLM tokens only before the LLM with fixed per-modality ratios, failing to capture how cross-modal token importance evolves across layers. To address this limitation, we first analyze the layer-wise token dependency of om-LLMs. We find that visual and audio dependencies follow a block-wise pattern and gradually weaken with depth, indicating that many late-layer non-textual tokens become redundant after cross-modal fusion. Motivated by this observation, we propose SEATS, a training-free, stage-adaptive token selection method for efficient om-LLM inference. Before the LLM, SEATS removes spatiotemporal redundancy via attention-weighted diversity selection. Inside the LLM, it progressively prunes tokens across blocks and dynamically allocates the retention budget from temporal windows to modalities using query relevance scores. In late layers, it removes all remaining non-textual tokens once cross-modal fusion is complete. Experiments on Qwen2.5-Omni and Qwen3-Omni demonstrate that SEATS effectively improves inference efficiency. Retaining only 10% of visual and audio tokens, it achieves a 9.3x FLOPs reduction and a 4.8x prefill speedup while preserving 96.3% of the original performance.
- Abstract(参考訳): Omni-modal large language model (om-LLMs) は、ビデオとオーディオを時間的に整列したトークンシーケンスにウィンドウレベルでインターリーブすることで、統合された音声・視覚的理解を実現する。
しかし、これらの高密度な非テキストトークンを LLM 全体にわたって処理すると、かなりの計算オーバーヘッドが発生する。
トレーニングなしのトークン選択は、このコストを削減することができるが、既存のメソッドは、視覚のみの入力にフォーカスするか、固定されたモダリティ比でLLMの前にのみPrune om-LLMトークンにフォーカスする。
この制限に対処するため、まずom-LLMの層単位でのトークン依存性を分析する。
視覚的および音声的依存はブロックワイドなパターンに従い、徐々に深度で弱まり、非テクスチュアルなトークンの多くは、クロスモーダル融合後に冗長になることを示す。
本研究は,効率的なom-LLM推論のためのトレーニング不要な段階適応トークン選択法であるSEATSを提案する。
LLMの前に、SEATSは注意重み付き多様性選択により時空間冗長性を取り除く。
LLM内部では、ブロック間でトークンを段階的にプルークし、クエリ関連スコアを使用して、時間ウィンドウからモダリティへの保持予算を動的に割り当てる。
後期層では、クロスモーダル融合が完了すると、残りのすべての非テキストトークンが削除される。
Qwen2.5-OmniとQwen3-Omniの実験は、SEATSが推論効率を効果的に改善することを示した。
ビジュアルトークンとオーディオトークンの10%しか保持せず、9.3倍のFLOPと4.8倍のプリフィルスピードアップを実現し、元のパフォーマンスの96.3%を保っている。
関連論文リスト
- DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference [68.4758228017823]
ParVTSは、ビジュアルトークンを被写体および非オブジェクトグループに分割し、それらを並列に処理し、それらのセマンティクスを疑問トークンに転送し、非オブジェクトパスミッド推論を破棄する。
実験の結果、ParVTSは最大88.9%の視覚トークンを出力し、最小性能が低下し、1.77倍のスピードアップと70%のFLOPが削減された。
論文 参考訳(メタデータ) (2025-11-24T08:29:36Z) - $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors [3.9039205692819547]
本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
論文 参考訳(メタデータ) (2025-09-27T04:37:26Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。