論文の概要: Learning from Children: Improving Image-Caption Pretraining via
Curriculum
- arxiv url: http://arxiv.org/abs/2305.17540v1
- Date: Sat, 27 May 2023 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:25:43.322740
- Title: Learning from Children: Improving Image-Caption Pretraining via
Curriculum
- Title(参考訳): 子どもからの学習 : カリキュラムによるイメージキャプチャ事前学習の改善
- Authors: Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang
- Abstract要約: 子どもの言語学習を扱う認知科学研究からインスピレーションを得て,カリキュラム学習フレームワークを提案する。
学習は、キャプションごとに1つの概念を含む、分かりやすいイメージキャプションペアから始まる。
新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に高まっていく。
- 参考スコア(独自算出の注目度): 39.01290590284428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-caption pretraining has been quite successfully used for downstream
vision tasks like zero-shot image classification and object detection. However,
image-caption pretraining is still a hard problem -- it requires multiple
concepts (nouns) from captions to be aligned to several objects in images. To
tackle this problem, we go to the roots -- the best learner, children. We take
inspiration from cognitive science studies dealing with children's language
learning to propose a curriculum learning framework. The learning begins with
easy-to-align image caption pairs containing one concept per caption. The
difficulty is progressively increased with each new phase by adding one more
concept per caption. Correspondingly, the knowledge acquired in each learning
phase is utilized in subsequent phases to effectively constrain the learning
problem to aligning one new concept-object pair in each phase. We show that
this learning strategy improves over vanilla image-caption training in various
settings -- pretraining from scratch, using a pretrained image or/and
pretrained text encoder, low data regime etc.
- Abstract(参考訳): 画像キャプチャ事前トレーニングは、ゼロショット画像分類やオブジェクト検出といった下流の視覚タスクに成功している。
しかし、画像キャプチャの事前トレーニングは依然として難しい問題だ。キャプションから複数の概念(名詞)をイメージ内の複数のオブジェクトに整列させる必要がある。この問題に対処するためには、最良の学習者である子どもたちの根元に進む。
我々は,子どもの言語学習を扱う認知科学研究から着想を得て,カリキュラム学習フレームワークを提案する。
学習は、キャプションごとにひとつの概念を含む画像キャプションペアから始まります。
新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に増加する。
次いで、学習段階ごとに獲得した知識を次の段階に活用し、学習問題を効果的に制約して、各段階に1つの新しい概念と対象のペアを整合させる。
この学習戦略は,事前学習された画像や/および事前学習されたテキストエンコーダ,低データ構造など,さまざまな環境でのバニラ画像キャプチャトレーニングよりも改善されていることを示す。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning [8.985668637331335]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」を埋め込む特異テキストを学習する。
我々は,複数の未知の単語を1つの文と画像のペアから同時に学習する,MCPL(Multi-Concept Prompt Learning)を導入する。
当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
論文 参考訳(メタデータ) (2023-10-18T19:18:19Z) - Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and
Knowledge Distillation [3.4436201325139737]
セマンティックセグメンテーションモデルのための新しいクラスをいくつかの例から学習する問題に対処する。
限られたデータから学習するために、数発のトレーニングアノテーションを増強する擬似ラベル方式を提案する。
上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。
論文 参考訳(メタデータ) (2023-08-05T05:05:37Z) - Gestalt-Guided Image Understanding for Few-Shot Learning [19.83265038667386]
本稿では,ゲシュタルト心理学を数ショット学習に適用し,GGIUと呼ばれるプラグアンドプレイ手法を提案する。
画像特徴抽出のためのトータルティガイド画像理解とクロージャガイド画像理解を設計する。
提案手法は,既存のモデルの性能をトレーニングや微調整なしに効果的かつ柔軟に向上させることができる。
論文 参考訳(メタデータ) (2023-02-08T07:39:18Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。