論文の概要: OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance
- arxiv url: http://arxiv.org/abs/2605.14458v1
- Date: Thu, 14 May 2026 06:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.10199
- Title: OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance
- Title(参考訳): OmniDrop: Query-GuidanceによるOmni-modal LLMのレイヤワイドトーケン処理
- Authors: Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon,
- Abstract要約: 高解像度オーディオとビデオ入力によるトークンの爆発は、リアルタイムアプリケーションや長時間の推論において、依然として重要なボトルネックとなっている。
既存のOmni-modalトークン圧縮法は、通常、音声とビデオの類似性や時間的共起に依存して、入力埋め込みレベルでトークンをプーンする。
我々は,LLMデコーダ層内の音声視覚トークンを,入力レベルではなく段階的にプルーフする,トレーニングフリーで層単位でのトークンプルーニングフレームワークであるOmniDropを提案する。
- 参考スコア(独自算出の注目度): 11.057999826097829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal large language models have demonstrated remarkable potential in holistic multimodal understanding; however, the token explosion caused by high-resolution audio and video inputs remains a critical bottleneck for real-time applications and long-form reasoning. Existing omni-modal token compression methods typically prune tokens at the input embedding level, relying on audio-video similarity or temporal co-occurrence as proxies for semantic relevance. In practice, such assumptions are often unreliable. To address this limitation, we propose OmniDrop, a training-free, layer-wise token pruning framework that progressively prunes audiovisual tokens within the LLM decoder layers rather than at the input-level, allowing early layers to preserve sufficient omni-modal information fusion before aggressively removing tokens in deeper layers. We further utilize text queries as guidance for modality-agnostic and task-adaptive token pruning. We also introduce a temporal diversity score that encourages balanced token survival to preserve global temporal context. Experimental results across various audiovisual benchmarks demonstrate that OmniDrop outperforms all baselines by up to 3.58 points while reducing prefill latency by up to 40% and memory usage by up to 14.7%.
- Abstract(参考訳): オムニモーダルな大言語モデルは、総合的マルチモーダル理解において顕著な可能性を示しているが、高解像度オーディオおよびビデオ入力によるトークンの爆発は、リアルタイムアプリケーションや長期的推論において重要なボトルネックとなっている。
既存のOmni-modalトークン圧縮法は、通常、音声とビデオの類似性や時間的共起に依存して、入力埋め込みレベルでトークンをプーンする。
実際には、そのような仮定は信頼できないことが多い。
この制限に対処するために、OmniDropを提案する。これは、LLMデコーダ層内のオーディオ視覚トークンを、入力レベルではなく段階的にプルーフし、初期層がより深い層内のトークンを積極的に除去する前に、十分なオムニモーダル情報融合を維持できるようにする、トレーニングフリーで、レイヤワイズなトークンプルーニングフレームワークである。
さらに、モダリティ非依存およびタスク適応型トークンプルーニングのガイダンスとしてテキストクエリを利用する。
また、グローバルな時間的文脈を維持するために、バランスの取れたトークンの生存を促す時間的多様性スコアも導入する。
様々なオーディオヴィジュアルベンチマークによる実験の結果、OmniDropは全ベースラインを最大3.58ポイント、プリフィル遅延を最大40%削減し、メモリ使用量を最大14.7%向上した。
関連論文リスト
- Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs [38.874953063372416]
推論時間トークンのプルーニングフレームワークとしてContextGuardを提案する。
ContextGuardは、音声から粗い視覚的セマンティクスを予測し、ビデオトークンをプーンする。
入力トークンの55%をプルーニングしながら、6つのベンチマークのうち5つでフルトーケンレベルのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-05-12T06:35:29Z) - OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models [42.615226139135174]
我々はOmni-LLM向けに設計されたトークン圧縮フレームワークであるOmniSIFTを提案する。
フレームワーク全体が、差別化可能なストレートスルー推定器を通じてエンドツーエンドに最適化されている。
オリジナルのトークンコンテキストの25%に過ぎないため、OmniSIFTはすべての圧縮ベースラインを一貫して上回り、複数のタスクでフルトーケンモデルのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2026-02-04T17:51:05Z) - OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models [21.542205813984243]
本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
論文 参考訳(メタデータ) (2025-11-18T15:22:32Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning [3.502168555273189]
SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
論文 参考訳(メタデータ) (2025-08-08T16:42:38Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。