論文の概要: Data Determines Distributional Robustness in Contrastive Language Image
Pre-training (CLIP)
- arxiv url: http://arxiv.org/abs/2205.01397v1
- Date: Tue, 3 May 2022 10:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 12:59:59.705898
- Title: Data Determines Distributional Robustness in Contrastive Language Image
Pre-training (CLIP)
- Title(参考訳): 比較言語画像事前学習(CLIP)における分布ロバスト性の決定
- Authors: Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal
Shankar, Achal Dave, Ludwig Schmidt
- Abstract要約: コントラスト的に訓練された画像テキストモデルにおいて、ロバスト性向上の5つの可能性について検討する。
実験により、より多様なトレーニング分布がロバスト性向上の主な原因であることが示されている。
ImageNet-Captionsは、Flickrのオリジナルテキストアノテーションを備えたImageNetのバージョンで、言語イメージトレーニングのさらなる制御実験を可能にする。
- 参考スコア(独自算出の注目度): 22.50863148301168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastively trained image-text models such as CLIP, ALIGN, and BASIC have
demonstrated unprecedented robustness to multiple challenging natural
distribution shifts. Since these image-text models differ from previous
training approaches in several ways, an important question is what causes the
large robustness gains. We answer this question via a systematic experimental
investigation. Concretely, we study five different possible causes for the
robustness gains: (i) the training set size, (ii) the training distribution,
(iii) language supervision at training time, (iv) language supervision at test
time, and (v) the contrastive loss function. Our experiments show that the more
diverse training distribution is the main cause for the robustness gains, with
the other factors contributing little to no robustness. Beyond our experimental
results, we also introduce ImageNet-Captions, a version of ImageNet with
original text annotations from Flickr, to enable further controlled experiments
of language-image training.
- Abstract(参考訳): CLIP、ALIGN、BASICといった対照的に訓練された画像テキストモデルは、複数の挑戦的な自然分布シフトに対して前例のない堅牢性を示している。
これらの画像テキストモデルは、以前のトレーニング手法といくつかの点で異なるため、重要な疑問は、大きなロバスト性の増加の原因である。
我々は体系的な実験によってこの疑問に答える。
具体的には、ロバスト性向上の5つの要因について検討する。
(i)トレーニングセットのサイズ。
(ii)訓練分布
(iii)訓練時間における言語監督
(四)試験時の言語監督、及び
(v) 対照的な損失関数。
我々の実験は、より多様なトレーニング分布がロバスト性向上の主な原因であることを示し、他の要因はロバスト性にはほとんど寄与しない。
実験結果以外にも、Flickrのオリジナルテキストアノテーションを備えたImageNetのバージョンであるImageNet-Captionsを導入し、言語イメージトレーニングのさらなる制御実験を可能にした。
関連論文リスト
- A Closer Look at the Robustness of Contrastive Language-Image
Pre-Training (CLIP) [12.5294671061385]
本研究では,コントラスト言語画像事前学習(CLIP)モデルの安全性について検討した。
視覚因子の変動に対するレジリエンス、不確実性推定の校正、異常な入力を検出する能力の3つの重要な特性に焦点を当てている。
10の視覚的要因(形状やパターンなど)、5種類のアウト・オブ・ディストリビューション・データ、異なるシフト型を持つ8つの自然かつ困難なテスト条件について検討する。
論文 参考訳(メタデータ) (2024-02-12T05:05:55Z) - A Comprehensive Study on Robustness of Image Classification Models:
Benchmarking and Rethinking [54.89987482509155]
ディープニューラルネットワークのロバスト性は、通常、敵の例、共通の腐敗、分散シフトに欠けている。
画像分類タスクにおいてtextbfARES-Bench と呼ばれる総合的なベンチマークロバスト性を確立する。
それに応じてトレーニング設定を設計することにより、新しい最先端の対人ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-02-28T04:26:20Z) - Is This Loss Informative? Faster Text-to-Image Customization by Tracking
Objective Dynamics [31.15864240403093]
本研究では,人気テキスト対画像パーソナライズ手法のトレーニングダイナミクスについて検討し,それらを高速化することを目的とした。
本稿では,一定組の入力に対して,正規学習目標の計算のみを必要とする,簡単な早期停止基準を提案する。
48の異なる概念に対する安定拡散実験と3つのパーソナライズ手法により,本手法の競争性能を実証した。
論文 参考訳(メタデータ) (2023-02-09T18:49:13Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation [5.469808405577674]
我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。
軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
論文 参考訳(メタデータ) (2021-12-22T14:48:22Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Pre-training also Transfers Non-Robustness [20.226917627173126]
一般化への貢献が認められているにもかかわらず、事前学習は、事前訓練されたモデルから微調整されたモデルへの非破壊性も伝達する。
その結果, 損耗を緩和し, 一般化を保ち, 有効性を検証した。
論文 参考訳(メタデータ) (2021-06-21T11:16:13Z) - When Does Contrastive Visual Representation Learning Work? [13.247759411409936]
4つの大規模データセットの対比的自己監視学習について検討する。
i)500k画像を超える予備トレーニングデータの追加の利点は控えめであり、(ii)他のドメインからの予備トレーニング画像の追加は、より一般的な表現につながるものではなく、(iii)破損した予備トレーニング画像は、監督および自己監督の予備トレーニングに異なる影響を与えます。
論文 参考訳(メタデータ) (2021-05-12T17:52:42Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。