論文の概要: Caption supervision enables robust learners
- arxiv url: http://arxiv.org/abs/2210.07396v1
- Date: Thu, 13 Oct 2022 22:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:43:12.992712
- Title: Caption supervision enables robust learners
- Title(参考訳): 頑健な学習者を可能にするキャプション監督
- Authors: Benjamin Feuer, Ameya Joshi, Chinmay Hegde
- Abstract要約: 標準的なクロスエントロピー損失でトレーニングされたCNNは、VLモデルよりも多く、場合によっては同じデータ上でキャプション監督の恩恵を受ける可能性があることを示す。
精度の高いキャプション教師付きモデルによる将来の実験を容易にするために,CaptionNetを紹介する。
CaptionNetの一連の実験において、損失関数、データフィルタリング、監視戦略の選択がいかに堅牢なコンピュータビジョンを実現するかを示す。
- 参考スコア(独自算出の注目度): 24.936204628969623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language models like CLIP are robust to natural distribution shifts,
in part because CLIP learns on unstructured data using a technique called
caption supervision; the model inteprets image-linked texts as ground-truth
labels. In a carefully controlled comparison study, we show that CNNs trained
on a standard cross-entropy loss can also benefit from caption supervision, in
some cases even more than VL models, on the same data. To facilitate future
experiments with high-accuracy caption-supervised models, we introduce
CaptionNet (https://github.com/penfever/CaptionNet/), which includes a
class-balanced, fully supervised dataset with over 50,000 new human-labeled
ImageNet-compliant samples which includes web-scraped captions. In a series of
experiments on CaptionNet, we show how the choice of loss function, data
filtration and supervision strategy enable robust computer vision. We also
provide the codebase necessary to reproduce our experiments at
https://github.com/penfever/vlhub/
- Abstract(参考訳): CLIPのようなビジョン言語モデルは、自然な分散シフトに対して堅牢である。その理由のひとつは、CLIPがキャプション監督と呼ばれる技術を使って非構造化データを学習するためである。
慎重に制御された比較研究において、標準的なクロスエントロピー損失で訓練されたCNNが、同じデータ上でVLモデルよりも多くキャプション監督の恩恵を受けることを示す。
精度の高いキャプション管理モデルによる将来の実験を容易にするために,Webスクラッピングされたキャプションを含む5万以上の新しい画像Net準拠サンプルを備えたクラスバランスの完全な教師付きデータセットを含むCaptionNet(https://github.com/penfever/CaptionNet/)を紹介した。
CaptionNetの一連の実験において、損失関数、データフィルタリング、監視戦略の選択がいかに堅牢なコンピュータビジョンを実現するかを示す。
また、https://github.com/penfever/vlhub/で実験を再現するために必要なコードベースも提供しています。
関連論文リスト
- Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts [22.74552390076515]
種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
論文 参考訳(メタデータ) (2023-10-19T17:59:12Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。