論文の概要: Using Knowledge Graphs to harvest datasets for efficient CLIP model training
- arxiv url: http://arxiv.org/abs/2505.02746v2
- Date: Fri, 30 May 2025 17:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.846134
- Title: Using Knowledge Graphs to harvest datasets for efficient CLIP model training
- Title(参考訳): 知識グラフによる効率的なCLIPモデルトレーニングのためのデータセットの収集
- Authors: Simon Ging, Sebastian Walter, Jelena Bratulić, Johannes Dienert, Hannah Bast, Thomas Brox,
- Abstract要約: 高品質のCLIPモデルのトレーニングは通常、膨大なデータセットを必要とする。
知識グラフで強化されたスマートWeb検索戦略を利用することで、堅牢なCLIPモデルをスクラッチからトレーニングできることを示す。
- 参考スコア(独自算出の注目度): 24.977076416143593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training high-quality CLIP models typically requires enormous datasets, which limits the development of domain-specific models -- especially in areas that even the largest CLIP models do not cover well -- and drives up training costs. This poses challenges for scientific research that needs fine-grained control over the training procedure of CLIP models. In this work, we show that by employing smart web search strategies enhanced with knowledge graphs, a robust CLIP model can be trained from scratch with considerably less data. Specifically, we demonstrate that an expert foundation model for living organisms can be built using just 10M images. Moreover, we introduce EntityNet, a dataset comprising 33M images paired with 46M text descriptions, which enables the training of a generic CLIP model in significantly reduced time.
- Abstract(参考訳): 高品質のCLIPモデルのトレーニングは通常、巨大なデータセットを必要とするため、特に最大のCLIPモデルでさえ十分にカバーできない領域において、ドメイン固有のモデルの開発が制限され、トレーニングコストが上昇する。
このことは、CLIPモデルのトレーニング手順をきめ細かな制御を必要とする科学研究の課題を提起する。
本研究では,知識グラフで強化されたスマートWeb検索戦略を用いることで,堅牢なCLIPモデルをスクラッチからトレーニングできることを示す。
具体的には,10万枚の画像を用いて,生物の専門的基盤モデルを構築できることを実証する。
さらに、46Mのテキスト記述と組み合わせた33MのイメージからなるデータセットであるEntityNetを導入し、一般的なCLIPモデルのトレーニングを大幅な短縮時間で行えるようにした。
関連論文リスト
- Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - TUNI: A Textual Unimodal Detector for Identity Inference in CLIP Models [12.497110441765274]
CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
画像を適用することで、ターゲットモデルに個人情報を公開するリスクが生じる可能性がある。
本稿では,CLIPモデルにおけるテキスト・ユニモーダル・ディテクター(TUNI)を提案する。1)テキストデータのみを使用してターゲットモデルに問い合わせること,2)シャドウモデルをトレーニングする必要がなくなること,である。
論文 参考訳(メタデータ) (2024-05-23T12:54:25Z) - Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。
高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。
SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文 参考訳(メタデータ) (2024-04-12T02:04:34Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。