Fugu-MT 論文翻訳(概要): Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)

論文の概要: Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)

arxiv url: http://arxiv.org/abs/2205.01397v1
Date: Tue, 3 May 2022 10:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-04 12:59:59.705898
Title: Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)
Title（参考訳）: 比較言語画像事前学習(CLIP)における分布ロバスト性の決定
Authors: Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal Shankar, Achal Dave, Ludwig Schmidt
Abstract要約: コントラスト的に訓練された画像テキストモデルにおいて、ロバスト性向上の5つの可能性について検討する。実験により、より多様なトレーニング分布がロバスト性向上の主な原因であることが示されている。 ImageNet-Captionsは、Flickrのオリジナルテキストアノテーションを備えたImageNetのバージョンで、言語イメージトレーニングのさらなる制御実験を可能にする。
参考スコア（独自算出の注目度）: 22.50863148301168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastively trained image-text models such as CLIP, ALIGN, and BASIC have demonstrated unprecedented robustness to multiple challenging natural distribution shifts. Since these image-text models differ from previous training approaches in several ways, an important question is what causes the large robustness gains. We answer this question via a systematic experimental investigation. Concretely, we study five different possible causes for the robustness gains: (i) the training set size, (ii) the training distribution, (iii) language supervision at training time, (iv) language supervision at test time, and (v) the contrastive loss function. Our experiments show that the more diverse training distribution is the main cause for the robustness gains, with the other factors contributing little to no robustness. Beyond our experimental results, we also introduce ImageNet-Captions, a version of ImageNet with original text annotations from Flickr, to enable further controlled experiments of language-image training.
Abstract（参考訳）: CLIP、ALIGN、BASICといった対照的に訓練された画像テキストモデルは、複数の挑戦的な自然分布シフトに対して前例のない堅牢性を示している。これらの画像テキストモデルは、以前のトレーニング手法といくつかの点で異なるため、重要な疑問は、大きなロバスト性の増加の原因である。我々は体系的な実験によってこの疑問に答える。具体的には、ロバスト性向上の5つの要因について検討する。 (i)トレーニングセットのサイズ。 (ii)訓練分布 (iii)訓練時間における言語監督 (四)試験時の言語監督、及び (v) 対照的な損失関数。我々の実験は、より多様なトレーニング分布がロバスト性向上の主な原因であることを示し、他の要因はロバスト性にはほとんど寄与しない。実験結果以外にも、Flickrのオリジナルテキストアノテーションを備えたImageNetのバージョンであるImageNet-Captionsを導入し、言語イメージトレーニングのさらなる制御実験を可能にした。

関連論文リスト

PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-17T18:25:56Z)
ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model [19.915033191502328]
この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。ビジョン言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にする。我々は,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の排除による余分なサンプルの供給と空洞の補充を行う。
論文参考訳（メタデータ） (2024-08-20T14:27:03Z)
FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models [40.21228703978429]
このような問題に対処してトレーニングプロセスを改善する可能性については,まだ実現されていない。具体的には、負のペアの誤割り当てと、低いキャプション品質と多様性の2つの問題を研究・分析する。
論文参考訳（メタデータ） (2024-05-16T17:46:54Z)
A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP) [12.5294671061385]
本研究では,コントラスト言語画像事前学習(CLIP)モデルの安全性について検討した。視覚因子の変動に対するレジリエンス、不確実性推定の校正、異常な入力を検出する能力の3つの重要な特性に焦点を当てている。 10の視覚的要因(形状やパターンなど)、5種類のアウト・オブ・ディストリビューション・データ、異なるシフト型を持つ8つの自然かつ困難なテスト条件について検討する。
論文参考訳（メタデータ） (2024-02-12T05:05:55Z)
A Comprehensive Study on Robustness of Image Classification Models: Benchmarking and Rethinking [54.89987482509155]
ディープニューラルネットワークのロバスト性は、通常、敵の例、共通の腐敗、分散シフトに欠けている。画像分類タスクにおいてtextbfARES-Bench と呼ばれる総合的なベンチマークロバスト性を確立する。それに応じてトレーニング設定を設計することにより、新しい最先端の対人ロバスト性を実現する。
論文参考訳（メタデータ） (2023-02-28T04:26:20Z)
Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics [31.15864240403093]
本研究では,人気テキスト対画像パーソナライズ手法のトレーニングダイナミクスについて検討し,それらを高速化することを目的とした。本稿では,一定組の入力に対して,正規学習目標の計算のみを必要とする,簡単な早期停止基準を提案する。 48の異なる概念に対する安定拡散実験と3つのパーソナライズ手法により,本手法の競争性能を実証した。
論文参考訳（メタデータ） (2023-02-09T18:49:13Z)
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-02-02T19:28:41Z)
Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文参考訳（メタデータ） (2022-12-01T18:59:57Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。画像事前学習の詳細な研究について述べる。低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文参考訳（メタデータ） (2021-12-19T15:50:48Z)
When Does Contrastive Visual Representation Learning Work? [13.247759411409936]
4つの大規模データセットの対比的自己監視学習について検討する。 i)500k画像を超える予備トレーニングデータの追加の利点は控えめであり、(ii)他のドメインからの予備トレーニング画像の追加は、より一般的な表現につながるものではなく、(iii)破損した予備トレーニング画像は、監督および自己監督の予備トレーニングに異なる影響を与えます。
論文参考訳（メタデータ） (2021-05-12T17:52:42Z)
StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文参考訳（メタデータ） (2021-04-14T19:58:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。