論文の概要: DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
- arxiv url: http://arxiv.org/abs/2505.16256v1
- Date: Thu, 22 May 2025 05:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.063308
- Title: DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
- Title(参考訳): DualComp:Unified Dual-Modality Lossless Compressorのエンドツーエンド学習
- Authors: Yan Zhao, Zhengxue Cheng, Junxuan Zhang, Qunshan Gu, Qi Wang, Li Song,
- Abstract要約: 画像とテキストデータのための学習型デュアルモード圧縮機であるDualCompを提案する。
モダリティ統一トークン化、モダリティスイッチング・コンテキスト学習、およびモダリティルーティング・ミックス・オブ・エキスパートが組み込まれている。
単純化された単一モダリティ変種は、モデルサイズのわずか1.2%を使用して、Kodakデータセット上の以前の最高の画像圧縮機を約9%上回る。
- 参考スコア(独自算出の注目度): 13.29860184704835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most learning-based lossless compressors are designed for a single modality, requiring separate models for multi-modal data and lacking flexibility. However, different modalities vary significantly in format and statistical properties, making it ineffective to use compressors that lack modality-specific adaptations. While multi-modal large language models (MLLMs) offer a potential solution for modality-unified compression, their excessive complexity hinders practical deployment. To address these challenges, we focus on the two most common modalities, image and text, and propose DualComp, the first unified and lightweight learning-based dual-modality lossless compressor. Built on a lightweight backbone, DualComp incorporates three key structural enhancements to handle modality heterogeneity: modality-unified tokenization, modality-switching contextual learning, and modality-routing mixture-of-experts. A reparameterization training strategy is also used to boost compression performance. DualComp integrates both modality-specific and shared parameters for efficient parameter utilization, enabling near real-time inference (200KB/s) on desktop CPUs. With much fewer parameters, DualComp achieves compression performance on par with the SOTA LLM-based methods for both text and image datasets. Its simplified single-modality variant surpasses the previous best image compressor on the Kodak dataset by about 9% using just 1.2% of the model size.
- Abstract(参考訳): ほとんどの学習ベースのロスレス圧縮機は単一のモダリティのために設計されており、マルチモーダルデータに対して別々のモデルが必要であり、柔軟性に欠ける。
しかし、異なるモダリティは形式や統計特性によって大きく異なるため、モダリティ固有の適応が欠けている圧縮機を使用することは効果的ではない。
マルチモーダルな大言語モデル(MLLM)は、モダリティ統一圧縮の潜在的な解決策を提供するが、その過度な複雑さは現実的な展開を妨げる。
これらの課題に対処するため、画像とテキストの2つの最も一般的なモダリティに着目し、DualCompを提案する。
軽量なバックボーン上に構築されたDualCompは、Modality-unified tokenization、Modality-switching contextual learning、Modality-routing mix-of-expertsという3つの重要な構造的拡張を組み込んでいる。
圧縮性能を高めるために、再パラメータ化トレーニング戦略も用いられる。
DualCompは、効率的なパラメータ利用のために、モダリティ固有のパラメータと共有パラメータの両方を統合し、デスクトップCPU上でほぼリアルタイムな推論(200KB/s)を可能にする。
パラメータがはるかに少ないため、DualCompはテキストと画像の両方のデータセットに対するSOTA LLMベースのメソッドと同等の圧縮性能を達成する。
単純化された単一モダリティ変種は、モデルサイズのわずか1.2%を使用して、Kodakデータセット上の以前の最高の画像圧縮機を約9%上回る。
関連論文リスト
- FD-LSCIC: Frequency Decomposition-based Learned Screen Content Image Compression [67.34466255300339]
本稿では、SC画像圧縮における3つの重要な課題として、コンパクトな潜時特徴の学習、量子化ステップのサイズの適応、大規模なSCデータセットの欠如について述べる。
適応量子化モジュールを導入し、各周波数成分のスケールした均一ノイズを学習し、量子化の粒度を柔軟に制御する。
SDU-SCICD10Kは,基本SC画像,コンピュータレンダリング画像,およびPCおよびモバイルプラットフォームからのNSとSCの混合画像にまたがる1万以上の画像を含む,大規模なSC画像圧縮データセットを構築した。
論文 参考訳(メタデータ) (2025-02-21T03:15:16Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Robust Multimodal Learning via Cross-Modal Proxy Tokens [11.704477276235847]
マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、大きなパフォーマンス低下を経験することが多い。
我々は,すべてのモダリティが利用可能である場合に高い性能を維持しつつ,モダリティの欠如に対するロバスト性を高める,シンプルで効果的なアプローチを提案する。
本手法では, 利用可能なモダリティのトークンのみにのみ参加することで, 欠落したモダリティのクラストークンを近似するクロスモーダルプロキシトークン(CMPT)を導入する。
論文 参考訳(メタデータ) (2025-01-29T18:15:49Z) - Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。