Fugu-MT 論文翻訳(概要): Learning from Children: Improving Image-Caption Pretraining via Curriculum

論文の概要: Learning from Children: Improving Image-Caption Pretraining via Curriculum

arxiv url: http://arxiv.org/abs/2305.17540v1
Date: Sat, 27 May 2023 17:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 18:25:43.322740
Title: Learning from Children: Improving Image-Caption Pretraining via Curriculum
Title（参考訳）: 子どもからの学習 : カリキュラムによるイメージキャプチャ事前学習の改善
Authors: Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang
Abstract要約: 子どもの言語学習を扱う認知科学研究からインスピレーションを得て,カリキュラム学習フレームワークを提案する。学習は、キャプションごとに1つの概念を含む、分かりやすいイメージキャプションペアから始まる。新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に高まっていく。
参考スコア（独自算出の注目度）: 39.01290590284428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-caption pretraining has been quite successfully used for downstream vision tasks like zero-shot image classification and object detection. However, image-caption pretraining is still a hard problem -- it requires multiple concepts (nouns) from captions to be aligned to several objects in images. To tackle this problem, we go to the roots -- the best learner, children. We take inspiration from cognitive science studies dealing with children's language learning to propose a curriculum learning framework. The learning begins with easy-to-align image caption pairs containing one concept per caption. The difficulty is progressively increased with each new phase by adding one more concept per caption. Correspondingly, the knowledge acquired in each learning phase is utilized in subsequent phases to effectively constrain the learning problem to aligning one new concept-object pair in each phase. We show that this learning strategy improves over vanilla image-caption training in various settings -- pretraining from scratch, using a pretrained image or/and pretrained text encoder, low data regime etc.
Abstract（参考訳）: 画像キャプチャ事前トレーニングは、ゼロショット画像分類やオブジェクト検出といった下流の視覚タスクに成功している。しかし、画像キャプチャの事前トレーニングは依然として難しい問題だ。キャプションから複数の概念(名詞)をイメージ内の複数のオブジェクトに整列させる必要がある。この問題に対処するためには、最良の学習者である子どもたちの根元に進む。我々は,子どもの言語学習を扱う認知科学研究から着想を得て,カリキュラム学習フレームワークを提案する。学習は、キャプションごとにひとつの概念を含む画像キャプションペアから始まります。新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に増加する。次いで、学習段階ごとに獲得した知識を次の段階に活用し、学習問題を効果的に制約して、各段階に1つの新しい概念と対象のペアを整合させる。この学習戦略は,事前学習された画像や/および事前学習されたテキストエンコーダ,低データ構造など,さまざまな環境でのバニラ画像キャプチャトレーニングよりも改善されていることを示す。

関連論文リスト

Visual Pre-Training on Unlabeled Images using Reinforcement Learning [62.66487459225838]
強化学習(RL)において、価値に基づくアルゴリズムは、それぞれの観察と状態とそれから到達しそうな報酬を関連付けることを学習する。この定式化に類似した自己教師付き画像事前学習法が多数存在することが観察された。 RL問題として,Webクロールやビデオフレームなどのラベル付けされていない画像データに事前学習を直接キャストする手法を提案する。
論文参考訳（メタデータ） (2025-06-13T17:25:27Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文参考訳（メタデータ） (2024-10-21T21:05:04Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning [8.985668637331335]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」を埋め込む特異テキストを学習する。我々は,複数の未知の単語を1つの文と画像のペアから同時に学習する,MCPL(Multi-Concept Prompt Learning)を導入する。当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
論文参考訳（メタデータ） (2023-10-18T19:18:19Z)
Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and Knowledge Distillation [3.4436201325139737]
セマンティックセグメンテーションモデルのための新しいクラスをいくつかの例から学習する問題に対処する。限られたデータから学習するために、数発のトレーニングアノテーションを増強する擬似ラベル方式を提案する。上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。
論文参考訳（メタデータ） (2023-08-05T05:05:37Z)
Gestalt-Guided Image Understanding for Few-Shot Learning [19.83265038667386]
本稿では,ゲシュタルト心理学を数ショット学習に適用し,GGIUと呼ばれるプラグアンドプレイ手法を提案する。画像特徴抽出のためのトータルティガイド画像理解とクロージャガイド画像理解を設計する。提案手法は,既存のモデルの性能をトレーニングや微調整なしに効果的かつ柔軟に向上させることができる。
論文参考訳（メタデータ） (2023-02-08T07:39:18Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。 ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文参考訳（メタデータ） (2021-06-22T17:51:24Z)
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文参考訳（メタデータ） (2020-09-28T23:20:02Z)
VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文参考訳（メタデータ） (2020-06-11T17:58:48Z)
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文参考訳（メタデータ） (2020-04-13T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。