論文の概要: OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14582v1
- Date: Tue, 18 Nov 2025 15:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.17923
- Title: OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
- Title(参考訳): OmniZip: 高速Omnimodal大言語モデルのためのオーディオガイド動的トーケン圧縮
- Authors: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang,
- Abstract要約: 本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
- 参考スコア(独自算出の注目度): 21.542205813984243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
- Abstract(参考訳): OmniLLMs (Omnimodal large language model) は、音声・ビデオの統一化に向けて、近年研究の関心が高まり、音声・ビデオのトークンシーケンスの処理が重要な計算ボトルネックとなっている。
既存のトークン圧縮法は、マルチモーダルトークンを共同で圧縮するこの新たなニーズにはまだ対応していない。
このギャップを埋めるため,マルチモーダルトークン表現を最適化し,推論を高速化する,トレーニング不要でオーディオ誘導型音声視覚トークン圧縮フレームワークであるOmniZipを提案する。
具体的には、OmniZipはまず健全な音声トークンを識別し、次に各時間グループ毎の音声保持スコアを演算して情報密度をキャプチャし、これにより、モーダルな類似性によって強化されたオーディオアンカーからビデオトークンのプルーニングと保存のキューを動的に誘導する。
タイムウィンドウ毎に、OmniZipはインターリーブされた時空間スキームを使用してビデオトークンを圧縮する。
OmniZipは3.42倍の推論スピードアップと1.4倍のメモリ削減を実現し、トレーニングなしでパフォーマンスを維持している。
関連論文リスト
- FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs [23.801172170798132]
LLaVA-Scissorは、マルチモーダルな大規模言語モデルのために設計された、トレーニング不要なトークン圧縮戦略である。
本稿では,セマンティック・コネクテッド・コンポーネント(SCC)のアプローチを活用し,包括的セマンティック・カバレッジを確保することを提案する。
我々は,LLaVA-Scissorのトークン圧縮性能を多様なビデオ理解ベンチマークで広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-27T02:29:58Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。
我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文 参考訳(メタデータ) (2024-12-16T05:03:48Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。