論文の概要: OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data
- arxiv url: http://arxiv.org/abs/2602.22286v1
- Date: Wed, 25 Feb 2026 13:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.354322
- Title: OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data
- Title(参考訳): OmniZip:マルチモードデータのための統一軽量ロスレス圧縮機
- Authors: Yan Zhao, Zhengxue Cheng, Junxuan Zhang, Dajiang Zhou, Qunshan Gu, Qi Wang, Li Song,
- Abstract要約: ロスレス圧縮は効率的なデータストレージと伝送に不可欠である。
マルチモーダルデータのための統一軽量圧縮機である textbf OmniZip を提案する。
軽量なバックボーン上に構築されたOmniZipには,3つの重要なコンポーネントが組み込まれ,効率的なマルチモーダル圧縮を実現している。
- 参考スコア(独自算出の注目度): 20.09409492679677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lossless compression is essential for efficient data storage and transmission. Although learning-based lossless compressors achieve strong results, most of them are designed for a single modality, leading to redundant compressor deployments in multi-modal settings. Designing a unified multi-modal compressor is critical yet challenging, as different data types vary largely in format, dimension, and statistics. Multi-modal large language models offer a promising resolution but remain too complex for practical use. Thus, we propose \textbf{OmniZip}, \textbf{a unified and lightweight lossless compressor for multi-modal data (like image, text, speech, tactile, database, and gene sequence)}. Built on a lightweight backbone, OmniZip incorporates three key components to enable efficient multi-modal lossless compression: a modality-unified tokenizer that reversibly transforms diverse data into tokens, a modality-routing context learning mechanism that enables flexible multi-modal context modeling, and a modality-routing feedforward design that further enhances the model's nonlinear representation flexibility. A reparameterization training strategy is used to enhance model capacity. OmniZip outperforms or matches other state-of-the-art compressors on multiple modalities, achieving 42\%, 57\%, 62\% and 42\%, 53\% higher compression efficiency than gzip on CLIC-M, TouchandGo, enwik9, LibriSpeech, and WikiSQL datasets, respectively. It also supports near real-time inference on resource-constrained edge devices, reaching about 1MB/s on MacBook CPUs and iPhone NPUs. Our code is released at https://github.com/adminasmi/OmniZip-CVPR2026.
- Abstract(参考訳): ロスレス圧縮は効率的なデータストレージと伝送に不可欠である。
学習ベースのロスレス圧縮機は強い結果を得るが、そのほとんどは単一のモダリティのために設計されており、マルチモーダル環境で冗長な圧縮機が配置される。
統一マルチモーダル圧縮機の設計は、様々なデータタイプが主にフォーマット、寸法、統計によって異なるため、非常に困難である。
マルチモーダルな大言語モデルは有望な解像度を提供するが、実用には複雑すぎる。
そこで本稿では,マルチモーダルデータ(画像,テキスト,音声,触覚,データベース,遺伝子配列など)に対する,統一的で軽量なロスレス圧縮機を提案する。
軽量なバックボーン上に構築されたOmniZipは、効率的なマルチモーダルロスレス圧縮を実現するために、3つの重要なコンポーネントを組み込んでいる。多様なデータをトークンに可逆的に変換するモダリティ統一トークンライザ、柔軟なマルチモーダルコンテキストモデリングを可能にするモダリティルーティングコンテキスト学習機構、モデルの非線形な表現柔軟性をさらに強化するモダリティルーティングフィードフォワード設計である。
モデルのキャパシティを高めるために、再パラメータ化トレーニング戦略が使用される。
OmniZipは、CLIC-M, TouchandGo, enwik9, LibriSpeech, WikiSQLデータセットのgzipよりも42\%, 57\%, 62\%, 42\%, 53\%高い圧縮効率を達成している。
また、リソース制約のあるエッジデバイスでほぼリアルタイムの推論をサポートし、MacBook CPUとiPhone NPUで約1MB/sに達する。
私たちのコードはhttps://github.com/adminasmi/OmniZip-CVPR2026.comで公開されています。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Simple Context Compression: Mean-Pooling and Multi-Ratio Training [12.049015994907629]
我々は、広く使われている圧縮トークンアーキテクチャを一貫して上回る軽量でシンプルな平均プール手法を開発した。
ドメイン内およびドメイン外QAデータセット、モデルファミリ、スケール、圧縮比にわたって、広範な実験を行います。
全体としては,複数の圧縮比のトレーニングを行う場合,比較的少ない低下率で,本手法は最強性能を達成する。
論文 参考訳(メタデータ) (2025-10-23T17:57:23Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor [13.29860184704835]
画像とテキストデータのための学習型デュアルモード圧縮機であるDualCompを提案する。
モダリティ統一トークン化、モダリティスイッチング・コンテキスト学習、およびモダリティルーティング・ミックス・オブ・エキスパートが組み込まれている。
単純化された単一モダリティ変種は、モデルサイズのわずか1.2%を使用して、Kodakデータセット上の以前の最高の画像圧縮機を約9%上回る。
論文 参考訳(メタデータ) (2025-05-22T05:46:14Z) - Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression [57.71917274869577]
UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
論文 参考訳(メタデータ) (2025-05-19T10:37:22Z) - L3TC: Leveraging RWKV for Learned Lossless Low-Complexity Text Compression [23.179381396167084]
我々はLearned Lossless Low-complexity Text Compression Method (L3TC)を紹介する。
RWKVモデルは、適度な圧縮比で高速な復号速度を達成する。
本稿では,頻繁なトークンをカバーするために,限定語彙を用いた外部認識トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T14:24:32Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。