論文の概要: OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04804v1
- Date: Wed, 04 Feb 2026 17:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.665363
- Title: OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
- Title(参考訳): OmniSIFT: 効率的なOmni-modal大言語モデルに対するモダリティ非対称トーケン圧縮
- Authors: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang,
- Abstract要約: 我々はOmni-LLM向けに設計されたトークン圧縮フレームワークであるOmniSIFTを提案する。
フレームワーク全体が、差別化可能なストレートスルー推定器を通じてエンドツーエンドに最適化されている。
オリジナルのトークンコンテキストの25%に過ぎないため、OmniSIFTはすべての圧縮ベースラインを一貫して上回り、複数のタスクでフルトーケンモデルのパフォーマンスを上回ります。
- 参考スコア(独自算出の注目度): 42.615226139135174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
- Abstract(参考訳): Omni-LLM(Omni-Modal Large Language Models)は、音声・ビデオ理解タスクにおいて強力な機能を示す。
しかし、長いマルチモーダルトークンシーケンスに依存しているため、かなりの計算オーバーヘッドが生じる。
この課題にもかかわらず、Omni-LLM向けに設計されたトークン圧縮手法は限定的のままである。
このギャップを埋めるために,Omni-LLM向けに最適化されたモダリティ非対称なトークン圧縮フレームワークであるOmniSIFT(Omni-modal Spatio-temporal Informed Fine-grained Token compression)を提案する。
具体的には、OmniSIFTは2段階圧縮戦略を採用している。
一 フレーム内構造及びフレーム間重なりから生じるビデオ冗長性を除去する時空間ビデオプルーニングモジュール
(ii)音声トークンをフィルタリングする視覚誘導オーディオ選択モジュール。
フレームワーク全体が、差別化可能なストレートスルー推定器を通じてエンドツーエンドに最適化されている。
5つの代表的なベンチマークにおいて、OmniSIFTの有効性とロバスト性を示す実験を行った。
特に、Qwen2.5-Omni-7Bでは、OmniSIFTは4.85Mパラメータしか導入せず、OmniZipのようなトレーニング不要のベースラインよりもレイテンシが低い。
オリジナルのトークンコンテキストの25%に過ぎないため、OmniSIFTはすべての圧縮ベースラインを一貫して上回り、複数のタスクでフルトーケンモデルのパフォーマンスを上回ります。
関連論文リスト
- Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis [22.55861092515539]
重要なボトルネックは、効果的な報酬モデル(RM)の欠如である。
我々は,最初のオープンソースルーリックグラウンド報酬モデルである textbf Omni-RRM を紹介する。
テキスト、画像、ビデオ、オーディオにまたがって、次元的に正当化された構造化された多次元の選好判断を生成する。
論文 参考訳(メタデータ) (2026-01-31T18:20:45Z) - EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs [28.295585578439212]
EchoingPixelsは、現実世界のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークである。
これは、モダリティごとに固定予算を使うのではなく、オーディオ・ビジュアル・トークンの合計プールからトークンを減らします。
オリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-12-11T06:18:58Z) - OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models [21.542205813984243]
本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
論文 参考訳(メタデータ) (2025-11-18T15:22:32Z) - OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [146.029449832893]
我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。
モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
論文 参考訳(メタデータ) (2025-10-17T17:59:59Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference [9.78611123915888]
デバイス上での効率的な推論のための視覚言語モデルであるOmniVLMを提案する。
視覚トークンシーケンスの長さを729から81に短縮し、計算オーバーヘッドを大幅に削減する。
968MのパラメータフットプリントでnanoLLAVAのような既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-12-16T06:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。