論文の概要: OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14582v1
- Date: Tue, 18 Nov 2025 15:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.17923
- Title: OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
- Title(参考訳): OmniZip: 高速Omnimodal大言語モデルのためのオーディオガイド動的トーケン圧縮
- Authors: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang,
- Abstract要約: 本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
- 参考スコア(独自算出の注目度): 21.542205813984243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
- Abstract(参考訳): OmniLLMs (Omnimodal large language model) は、音声・ビデオの統一化に向けて、近年研究の関心が高まり、音声・ビデオのトークンシーケンスの処理が重要な計算ボトルネックとなっている。
既存のトークン圧縮法は、マルチモーダルトークンを共同で圧縮するこの新たなニーズにはまだ対応していない。
このギャップを埋めるため,マルチモーダルトークン表現を最適化し,推論を高速化する,トレーニング不要でオーディオ誘導型音声視覚トークン圧縮フレームワークであるOmniZipを提案する。
具体的には、OmniZipはまず健全な音声トークンを識別し、次に各時間グループ毎の音声保持スコアを演算して情報密度をキャプチャし、これにより、モーダルな類似性によって強化されたオーディオアンカーからビデオトークンのプルーニングと保存のキューを動的に誘導する。
タイムウィンドウ毎に、OmniZipはインターリーブされた時空間スキームを使用してビデオトークンを圧縮する。
OmniZipは3.42倍の推論スピードアップと1.4倍のメモリ削減を実現し、トレーニングなしでパフォーマンスを維持している。
関連論文リスト
- OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data [20.09409492679677]
ロスレス圧縮は効率的なデータストレージと伝送に不可欠である。
マルチモーダルデータのための統一軽量圧縮機である textbf OmniZip を提案する。
軽量なバックボーン上に構築されたOmniZipには,3つの重要なコンポーネントが組み込まれ,効率的なマルチモーダル圧縮を実現している。
論文 参考訳(メタデータ) (2026-02-25T13:51:08Z) - OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models [42.615226139135174]
我々はOmni-LLM向けに設計されたトークン圧縮フレームワークであるOmniSIFTを提案する。
フレームワーク全体が、差別化可能なストレートスルー推定器を通じてエンドツーエンドに最適化されている。
オリジナルのトークンコンテキストの25%に過ぎないため、OmniSIFTはすべての圧縮ベースラインを一貫して上回り、複数のタスクでフルトーケンモデルのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2026-02-04T17:51:05Z) - EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs [28.295585578439212]
EchoingPixelsは、現実世界のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークである。
これは、モダリティごとに固定予算を使うのではなく、オーディオ・ビジュアル・トークンの合計プールからトークンを減らします。
オリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-12-11T06:18:58Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - VibeVoice Technical Report [90.14596405668135]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。
本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:09:12Z) - LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs [23.801172170798132]
LLaVA-Scissorは、マルチモーダルな大規模言語モデルのために設計された、トレーニング不要なトークン圧縮戦略である。
本稿では,セマンティック・コネクテッド・コンポーネント(SCC)のアプローチを活用し,包括的セマンティック・カバレッジを確保することを提案する。
我々は,LLaVA-Scissorのトークン圧縮性能を多様なビデオ理解ベンチマークで広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-27T02:29:58Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。
我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文 参考訳(メタデータ) (2024-12-16T05:03:48Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。