論文の概要: Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning
- arxiv url: http://arxiv.org/abs/2207.07635v1
- Date: Fri, 15 Jul 2022 17:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 13:21:01.393072
- Title: Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning
- Title(参考訳): キャプションは数千枚分の価値があるか?
表現学習のための制御学習
- Authors: Shibani Santurkar, Yann Dubois, Rohan Taori, Percy Liang and Tatsunori
Hashimoto
- Abstract要約: 本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
- 参考スコア(独自算出の注目度): 88.5382122413913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of CLIP [Radford et al., 2021] has sparked a debate on
whether language supervision can result in vision models with more transferable
representations than traditional image-only methods. Our work studies this
question through a carefully controlled comparison of two approaches in terms
of their ability to learn representations that generalize to downstream
classification tasks. We find that when the pre-training dataset meets certain
criteria -- it is sufficiently large and contains descriptive captions with low
variability -- image-only methods do not match CLIP's transfer performance,
even when they are trained with more image data. However, contrary to what one
might expect, there are practical settings in which these criteria are not met,
wherein added supervision through captions is actually detrimental. Motivated
by our findings, we devise simple prescriptions to enable CLIP to better
leverage the language information present in existing pre-training datasets.
- Abstract(参考訳): CLIP (Radford et al., 2021) の開発は、従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルに言語を監督できるかどうかという議論を引き起こしている。
本研究は,ダウンストリーム分類タスクに一般化した表現を学習する能力という観点から,2つのアプローチを慎重に比較することで,この問題を研究する。
事前トレーニングデータセットが一定の基準を満たしている場合 -- 十分に大きく、変数の少ない記述的なキャプションを含む場合 -- イメージのみのメソッドは、より多くのイメージデータでトレーニングされた場合でも、CLIPの転送パフォーマンスにマッチしない。
しかし、予想に反して、これらの基準を満たさない実践的な設定があり、字幕による監督の追加は実際には有害である。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
関連論文リスト
- SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。