論文の概要: Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs
- arxiv url: http://arxiv.org/abs/2605.11605v1
- Date: Tue, 12 May 2026 06:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.63159
- Title: Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs
- Title(参考訳): Omni-LLMのためのコンテキスト保存型トーケンプルーニング
- Authors: Chaeyoung Jung, Kyeongha Rho, Joon Son Chung,
- Abstract要約: 推論時間トークンのプルーニングフレームワークとしてContextGuardを提案する。
ContextGuardは、音声から粗い視覚的セマンティクスを予測し、ビデオトークンをプーンする。
入力トークンの55%をプルーニングしながら、6つのベンチマークのうち5つでフルトーケンレベルのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.874953063372416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnimodal Large Language Models (Omni-LLMs) incur substantial computational overhead due to the large number of multimodal input tokens they process, making token reduction essential for real-world deployment. Existing Omni-LLM pruning methods typically reduce this cost by selecting tokens that are important for the current query or strongly aligned with cross-modal cues. However, such strategies can discard evidence that falls outside these criteria, even when needed for different questions or for understanding context beyond aligned audio-visual cues. To address this limitation, we reframe Omni-LLM token reduction as preserving broad audio-visual context while removing cross-modal redundancy. We propose ContextGuard, an inference-time token pruning framework built on this principle. ContextGuard predicts coarse visual semantics from audio and prunes video tokens whose coarse semantics are likely recoverable from audio, while retaining additional video tokens to preserve localized visual details that audio alone cannot specify. For further compression, our method merges temporally similar video tokens. The framework requires no downstream LLM fine-tuning and uses only an independently trained lightweight predictor. On Qwen2.5-Omni and Video-SALMONN2+ at 3B and 7B scales across six audio-visual benchmarks, ContextGuard outperforms prior inference-time pruning methods while pruning more tokens. Notably, on Qwen2.5-Omni 7B, ContextGuard achieves full-token-level performance on five of six benchmarks while pruning 55% of input tokens.
- Abstract(参考訳): Omnimodal Large Language Models (Omni-LLMs) は、処理するマルチモーダルな入力トークンの多さにより、かなりの計算オーバーヘッドを発生させるため、実際のデプロイメントにはトークンの削減が不可欠である。
既存のOmni-LLMプルーニングメソッドは、通常、現在のクエリに重要なトークンを選択したり、クロスモーダルなキューに強く準拠することで、このコストを削減する。
しかし、このような戦略は、異なる質問が必要な場合や、一致した音声・視覚的手がかりを超えた文脈を理解するために、これらの基準外にある証拠を破棄することができる。
この制限に対処するため、私たちはOmni-LLMトークンの削減を、クロスモーダル冗長性を取り除きながら広視野の音声・視覚コンテキストを保存するものとして再構成した。
この原理に基づいて構築された推論時トークンプルーニングフレームワークであるContextGuardを提案する。
ContextGuardは、オーディオから粗い視覚的セマンティクスを予測し、粗いセマンティクスがオーディオから回復できる可能性の高いビデオトークンをプーンする。
さらに圧縮を行うため,時間的に類似したビデオトークンをマージする手法を提案する。
このフレームワークは下流のLLM微調整を必要とせず、独立して訓練された軽量予測器のみを使用する。
Qwen2.5-OmniとVideo-SALMONN2+の3Bと7Bでは、6つのオーディオビジュアルベンチマークでスケールし、ContextGuardはより多くのトークンをプルーニングしながら、推論時のプルーニングメソッドよりも優れています。
特に、Qwen2.5-Omni 7Bでは、ContextGuardは6つのベンチマークのうち5つでフルトーケンレベルのパフォーマンスを実現し、入力トークンの55%をプルーニングしている。
関連論文リスト
- AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding [81.07348307304547]
AdaptTokenは、MLLMの自己不確実性を、長ビデオトークン選択のためのグローバルコントロール信号に変換する、トレーニング不要のフレームワークである。
常に精度(例えばQwen2.5-VL 7Bで平均で+6.7)を向上し、非常に長い入力(最大10Kフレーム)の恩恵を受け続けている。
推論時間を同等のパフォーマンスで約半分削減する。
論文 参考訳(メタデータ) (2026-03-30T17:14:15Z) - ReDiPrune: Relevance-Diversity Pre-Projection Token Pruning for Efficient Multimodal LLMs [16.523460406504604]
ReDiPrune(ReDiPrune)は、視覚条件のプロジェクタに適用される、トレーニング不要のトークンプルーニング手法である。
視覚エンコーダ出力から直接情報トークンを選択し、きめ細かい空間的および意味的な手がかりを保存する。
4つのビデオと5つの画像ベンチマークの精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-25T18:01:19Z) - DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression [5.201210378318278]
トークン圧縮と意味構造を協調する動的オーディオ駆動セマンティックcHunking(DASH)を提案する。
DASHは音声埋め込みをセマンティックアンカーとして扱い、コサイン類似性不連続性によって境界候補を検出する。
AVUT、VideoMME、WorldSenseの実験では、DASHは従来の方法に比べて高い圧縮比を達成しつつ、優れた精度を維持している。
論文 参考訳(メタデータ) (2026-03-15T15:22:06Z) - Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。
フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。
提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文 参考訳(メタデータ) (2026-03-02T03:06:40Z) - OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models [21.542205813984243]
本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
論文 参考訳(メタデータ) (2025-11-18T15:22:32Z) - Qwen2.5-Omni Technical Report [31.033323728153984]
本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。
Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-26T04:17:55Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。
我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文 参考訳(メタデータ) (2024-12-16T05:03:48Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。