論文の概要: CiT: Curation in Training for Effective Vision-Language Data
- arxiv url: http://arxiv.org/abs/2301.02241v1
- Date: Thu, 5 Jan 2023 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:24:50.272133
- Title: CiT: Curation in Training for Effective Vision-Language Data
- Title(参考訳): CiT:効果的なビジョンランゲージデータのためのトレーニングのカリキュラム
- Authors: Hu Xu, Saining Xie, Po-Yao Huang, Licheng Yu, Russell Howes, Gargi
Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
- Abstract要約: 本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
- 参考スコア(独自算出の注目度): 84.77867625605053
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models are generally applicable to many downstream
tasks, but come at an exorbitant training cost that only large institutions can
afford. This paper trades generality for efficiency and presents Curation in
Training (CiT), a simple and efficient vision-text learning algorithm that
couples a data objective into training. CiT automatically yields quality data
to speed-up contrastive image-text training and alleviates the need for an
offline data filtering pipeline, allowing broad data sources (including raw
image-text pairs from the web). CiT contains two loops: an outer loop curating
the training data and an inner loop consuming the curated training data. The
text encoder connects the two loops. Given metadata for tasks of interest,
e.g., class names, and a large pool of image-text pairs, CiT alternatively
selects relevant training data from the pool by measuring the similarity of
their text embeddings and embeddings of the metadata. In our experiments, we
observe that CiT can speed up training by over an order of magnitude,
especially if the raw data size is large.
- Abstract(参考訳): 大きな視覚言語モデルは一般的に下流の多くのタスクに適用できるが、大きな機関にしか手に入らないような訓練コストが伴う。
本稿では,データ目標をトレーニングに結合する簡易かつ効率的な視覚テキスト学習アルゴリズムであるcit(curation in training)を提案する。
CiTは、コントラストのある画像テキストトレーニングをスピードアップするために自動的に品質データを出力し、オフラインデータフィルタリングパイプラインの必要性を軽減し、幅広いデータソース(Webからの生画像テキストペアを含む)を可能にする。
CiTは、トレーニングデータをキュレートする外ループと、このキュレートしたトレーニングデータを消費する内ループの2つのループを含む。
テキストエンコーダは2つのループを接続する。
興味のあるタスク、例えばクラス名やイメージテキストペアのプールに対するメタデータが与えられた場合、citは、テキスト埋め込みとメタデータの埋め込みの類似度を測定することによって、関連するトレーニングデータをプールから選択する。
実験では、特に生のデータサイズが大きい場合には、citがトレーニングを1桁以上高速化できることを観察した。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data [40.88256210436378]
本稿では,Web スケールの画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。
提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。
Webスケールのデータに対する対照的な学習に比べて、トレーニング速度の2.7倍の加速を実現している。
論文 参考訳(メタデータ) (2024-04-24T05:13:28Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Curriculum Learning for Data-Efficient Vision-Language Alignment [29.95935291982015]
コントラスト学習を用いて画像とテキストのエンコーダをスクラッチから調整するには、大量のペア画像テキストデータが必要である。
我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和する。
TOnICSは、トレーニングデータの1%未満を使用しながら、下流のゼロショット画像検索においてCLIPを上回っている。
論文 参考訳(メタデータ) (2022-07-29T07:45:56Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。