論文の概要: Learning from Children: Improving Image-Caption Pretraining via
Curriculum
- arxiv url: http://arxiv.org/abs/2305.17540v1
- Date: Sat, 27 May 2023 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:25:43.322740
- Title: Learning from Children: Improving Image-Caption Pretraining via
Curriculum
- Title(参考訳): 子どもからの学習 : カリキュラムによるイメージキャプチャ事前学習の改善
- Authors: Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang
- Abstract要約: 子どもの言語学習を扱う認知科学研究からインスピレーションを得て,カリキュラム学習フレームワークを提案する。
学習は、キャプションごとに1つの概念を含む、分かりやすいイメージキャプションペアから始まる。
新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に高まっていく。
- 参考スコア(独自算出の注目度): 39.01290590284428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-caption pretraining has been quite successfully used for downstream
vision tasks like zero-shot image classification and object detection. However,
image-caption pretraining is still a hard problem -- it requires multiple
concepts (nouns) from captions to be aligned to several objects in images. To
tackle this problem, we go to the roots -- the best learner, children. We take
inspiration from cognitive science studies dealing with children's language
learning to propose a curriculum learning framework. The learning begins with
easy-to-align image caption pairs containing one concept per caption. The
difficulty is progressively increased with each new phase by adding one more
concept per caption. Correspondingly, the knowledge acquired in each learning
phase is utilized in subsequent phases to effectively constrain the learning
problem to aligning one new concept-object pair in each phase. We show that
this learning strategy improves over vanilla image-caption training in various
settings -- pretraining from scratch, using a pretrained image or/and
pretrained text encoder, low data regime etc.
- Abstract(参考訳): 画像キャプチャ事前トレーニングは、ゼロショット画像分類やオブジェクト検出といった下流の視覚タスクに成功している。
しかし、画像キャプチャの事前トレーニングは依然として難しい問題だ。キャプションから複数の概念(名詞)をイメージ内の複数のオブジェクトに整列させる必要がある。この問題に対処するためには、最良の学習者である子どもたちの根元に進む。
我々は,子どもの言語学習を扱う認知科学研究から着想を得て,カリキュラム学習フレームワークを提案する。
学習は、キャプションごとにひとつの概念を含む画像キャプションペアから始まります。
新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に増加する。
次いで、学習段階ごとに獲得した知識を次の段階に活用し、学習問題を効果的に制約して、各段階に1つの新しい概念と対象のペアを整合させる。
この学習戦略は,事前学習された画像や/および事前学習されたテキストエンコーダ,低データ構造など,さまざまな環境でのバニラ画像キャプチャトレーニングよりも改善されていることを示す。
関連論文リスト
- Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and
Knowledge Distillation [3.4436201325139737]
セマンティックセグメンテーションモデルのための新しいクラスをいくつかの例から学習する問題に対処する。
限られたデータから学習するために、数発のトレーニングアノテーションを増強する擬似ラベル方式を提案する。
上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。
論文 参考訳(メタデータ) (2023-08-05T05:05:37Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Gestalt-Guided Image Understanding for Few-Shot Learning [19.83265038667386]
本稿では,ゲシュタルト心理学を数ショット学習に適用し,GGIUと呼ばれるプラグアンドプレイ手法を提案する。
画像特徴抽出のためのトータルティガイド画像理解とクロージャガイド画像理解を設計する。
提案手法は,既存のモデルの性能をトレーニングや微調整なしに効果的かつ柔軟に向上させることができる。
論文 参考訳(メタデータ) (2023-02-08T07:39:18Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。