論文の概要: CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression
- arxiv url: http://arxiv.org/abs/2602.05909v1
- Date: Thu, 05 Feb 2026 17:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.083804
- Title: CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression
- Title(参考訳): CLIP-Map:パラメータ効率の良いCLIP圧縮のための構造化行列マッピング
- Authors: Kangjie Zhang, Wenxuan Huang, Xin Zhou, Boxiang Zhou, Dejia Song, Yuan Xie, Baochang Zhang, Lizhuang Ma, Nemo Chen, Xu Tang, Yao Hu, Shaohui Lin,
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンタスクに広く応用されている。
CLIPは高いメモリと計算コストに悩まされており、リソース制限されたアプリケーションシナリオの使用を禁止している。
本稿では,新しいCLIP圧縮フレームワークであるCLIP-Mapを提案する。
- 参考スコア(独自算出の注目度): 70.45437536012015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has achieved widely applications in various computer vision tasks, e.g., text-to-image generation, Image-Text retrieval and Image captioning. However, CLIP suffers from high memory and computation cost, which prohibits its usage to the resource-limited application scenarios. Existing CLIP compression methods typically reduce the size of pre-trained CLIP weights by selecting their subset as weight inheritance for further retraining via mask optimization or important weight measurement. However, these select-based weight inheritance often compromises the feature presentation ability, especially on the extreme compression. In this paper, we propose a novel mapping-based CLIP compression framework, CLIP-Map. It leverages learnable matrices to map and combine pretrained weights by Full-Mapping with Kronecker Factorization, aiming to preserve as much information from the original weights as possible. To mitigate the optimization challenges introduced by the learnable mapping, we propose Diagonal Inheritance Initialization to reduce the distribution shifting problem for efficient and effective mapping learning. Extensive experimental results demonstrate that the proposed CLIP-Map outperforms select-based frameworks across various compression ratios, with particularly significant gains observed under high compression settings.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は様々なコンピュータビジョンタスク、例えばテキスト・ツー・イメージ生成、画像テキスト検索、画像キャプションに広く応用されている。
しかし、CLIPは高いメモリと計算コストに悩まされており、リソース限定のアプリケーションシナリオの使用を禁止している。
既存のCLIP圧縮法は、マスク最適化や重み測定によってさらなるトレーニングを行うために、そのサブセットを重み継承として選択することで、トレーニング済みのCLIP重量を減らすのが一般的である。
しかし、これらの選択に基づく重み付けは、特に極端な圧縮において、しばしば特徴提示能力を損なう。
本稿では,新しいCLIP圧縮フレームワークであるCLIP-Mapを提案する。
学習可能な行列を活用して、Fil-MappingとKronecker Factorizationによる事前学習された重みをマッピングし、組み合わせ、元の重みからできるだけ多くの情報を保存することを目的としている。
学習可能なマッピングによってもたらされる最適化課題を軽減するため,効率的かつ効率的なマッピング学習のための分散シフト問題を低減するために,対角的継承初期化を提案する。
大規模な実験結果から,提案したCLIP-Mapは,高い圧縮条件下では特に顕著な利得で,様々な圧縮比で選択ベースのフレームワークよりも優れていた。
関連論文リスト
- un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-05-30T12:29:38Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MIP: CLIP-based Image Reconstruction from PEFT Gradients [25.41543057104711]
本稿では,CLIPをベースとした分散機械学習アーキテクチャを対象とした,独自の再構築攻撃手法を提案する。
特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。
実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。
論文 参考訳(メタデータ) (2024-02-26T02:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。