論文の概要: TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge
- arxiv url: http://arxiv.org/abs/2510.21879v1
- Date: Thu, 23 Oct 2025 14:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.92472
- Title: TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge
- Title(参考訳): TernaryCLIP: 3次重み付き視覚言語モデルと蒸留知識を効果的に圧縮する
- Authors: Shu-Hao Zhang, Wei-Cheng Tang, Chen Wu, Peng Hu, Nan Li, Liang-Jie Zhang, Qi Zhang, Shao-Qun Zhang,
- Abstract要約: TernaryCLIPは、CLIPの視覚とテキストエンコーダの接続重みを3次フォーマットに変換する軽量フレームワークである。
本研究は,大規模マルチモーダルモデルの極端量子化の実現可能性を強調し,資源制約されたデバイスへの効果的かつ効率的な展開を支援する。
- 参考スコア(独自算出の注目度): 23.707347449137895
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent years have witnessed an increasing interest in image-text contrastive modeling, exemplified by models such as Contrastive Language-Image Pretraining (CLIP). In this paper, we propose the TernaryCLIP, a lightweight computational framework that converts connection weights of both vision and text encoders of CLIP into the ternary format, instead of full-precision or floating ones. TernaryCLIP incorporates quantization-aware training and distillation modules, preventing precision degradation and enabling low-cost and high-efficiency computations. Comprehensive experiments demonstrate that TernaryCLIP can achieve up to 99\% ternarized weights with 1.58-bit representation, 16.98 $\times$ compression ratio, 2.3 $\times$ inference acceleration, 16 $\times$ storage reduction, 10 $\times$ memory optimization, and 60\% sparsity while maintaining promising performance on zero-shot image classification and image-text retrieval tasks across 41 commonly used datasets. Our work highlights the feasibility of extreme quantization for large multimodal models, supporting effective and efficient deployment on resource-constrained devices. The model and code can be accessed from Hugging Face and GitHub.
- Abstract(参考訳): 近年、Contrastive Language- Image Pretraining (CLIP) などのモデルに代表される画像テキストコントラストモデリングへの関心が高まっている。
本稿では,CLIPの視覚とテキストエンコーダの接続重みを,完全精度や浮動小数点演算の代わりに3次形式に変換する軽量計算フレームワークであるTernaryCLIPを提案する。
TernaryCLIPは量子化対応のトレーニングと蒸留モジュールを搭載し、精度の低下を防止し、低コストで高効率な計算を可能にする。
総合的な実験により、TernaryCLIPは1.58ビットの表現で最大99\%の重み付け、16.98$\times$圧縮比、2.3$\times$推論アクセラレーション、16$\times$ストレージリダクション、10$\times$メモリ最適化、60\%の範囲を達成できる。
本研究は,大規模マルチモーダルモデルの極端量子化の実現可能性を強調し,資源制約されたデバイスへの効果的かつ効率的な展開を支援する。
モデルとコードはHugging FaceとGitHubからアクセスできる。
関連論文リスト
- AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources [45.40926501138365]
我々は、高度な合成最適化技術に基づいて構築された一般的なCLIPトレーニングフレームワークであるFastCLIPを紹介する。
我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。
我々は、FastCLIPと最先端のトレーニングベースラインのパフォーマンスを、異なる計算スケールでベンチマークする。
論文 参考訳(メタデータ) (2024-07-01T16:37:18Z) - CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy [20.495259430916814]
CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。
実験を13B画像テキストペアでH/14モデルに拡張する。
我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
論文 参考訳(メタデータ) (2023-06-27T17:51:06Z) - Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective [27.650434284271363]
50 IPC未満では、Tiny-ImageNetとImageNet-1Kデータセットの検証精度が最も高い42.5%と60.8%である。
我々のアプローチは、データ合成中に11.6$times$と6.4$times$のメモリ消費を少なくして、約52$times$ (ConvNet-4) と 16$times$ (ResNet-18) の速度で MTT を超える。
論文 参考訳(メタデータ) (2023-06-22T17:59:58Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。