論文の概要: HyperCLIP: Adapting Vision-Language models with Hypernetworks
- arxiv url: http://arxiv.org/abs/2412.16777v1
- Date: Sat, 21 Dec 2024 21:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:20.060387
- Title: HyperCLIP: Adapting Vision-Language models with Hypernetworks
- Title(参考訳): HyperCLIP: Hypernetworksによるビジョンランゲージモデルの適用
- Authors: Victor Akinwande, Mohammad Sadegh Norouzzadeh, Devin Willmott, Anna Bair, Madan Ravi Ganesh, J. Zico Kolter,
- Abstract要約: 我々は、ハイパーネットワークと共に小さな画像エンコーダを使用する、HyperCLIPと呼ばれる視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパーネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同でエンドツーエンドでトレーニングされている。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
- 参考スコア(独自算出の注目度): 43.23792024551352
- License:
- Abstract: Self-supervised vision-language models trained with contrastive objectives form the basis of current state-of-the-art methods in AI vision tasks. The success of these models is a direct consequence of the huge web-scale datasets used to train them, but they require correspondingly large vision components to properly learn powerful and general representations from such a broad data domain. This poses a challenge for deploying large vision-language models, especially in resource-constrained environments. To address this, we propose an alternate vision-language architecture, called HyperCLIP, that uses a small image encoder along with a hypernetwork that dynamically adapts image encoder weights to each new set of text inputs. All three components of the model (hypernetwork, image encoder, and text encoder) are pre-trained jointly end-to-end, and with a trained HyperCLIP model, we can generate new zero-shot deployment-friendly image classifiers for any task with a single forward pass through the text encoder and hypernetwork. HyperCLIP increases the zero-shot accuracy of SigLIP trained models with small image encoders by up to 3% on ImageNet and 5% on CIFAR-100 with minimal training throughput overhead.
- Abstract(参考訳): 対照的な目的で訓練された自己教師型視覚言語モデルは、AIビジョンタスクにおける現在の最先端の手法の基礎を形成する。
これらのモデルの成功は、トレーニングに使用される巨大なWebスケールデータセットの直接的な結果であるが、このような広範なデータドメインから強力で一般的な表現を適切に学習するためには、対応する大きなビジョンコンポーネントが必要である。
これは、特にリソース制約のある環境で、大きなビジョン言語モデルをデプロイする上での課題となる。
そこで本研究では,画像エンコーダ重みを新しいテキスト入力セットに動的に適応させるハイパーネットワークとともに,小さな画像エンコーダを使用するHyperCLIPという代替視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同で訓練されたエンドツーエンドであり、トレーニングされたHyperCLIPモデルにより、テキストエンコーダとハイパーネットワークを1つのフォワードパスした任意のタスクに対して、ゼロショットデプロイメントフレンドリな新しいイメージ分類器を生成することができる。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
関連論文リスト
- LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Unsupervised Prompt Learning for Vision-Language Models [12.259694415428026]
本稿では、CLIPのような視覚言語モデルのゼロショット転送を改善するために、教師なしプロンプトラーニング(UPL)フレームワークを提案する。
UPLの強化バージョンは、ほとんどのデータセットで8ショットのCoOpと8ショットのTIP-Adapterと同等である。
論文 参考訳(メタデータ) (2022-04-07T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。