論文の概要: VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining
- arxiv url: http://arxiv.org/abs/2102.10407v1
- Date: Sat, 20 Feb 2021 18:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:29:32.839897
- Title: VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining
- Title(参考訳): VisualGPT:事前学習による視覚入力と言語知識のバランスによるデータ効率のよい画像キャプション
- Authors: Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny
- Abstract要約: 大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
- 参考スコア(独自算出の注目度): 39.24803665848558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we aim to improve the data efficiency of image captioning. We
propose VisualGPT, a data-efficient image captioning model that leverages the
linguistic knowledge from a large pretrained language model (LM). A crucial
challenge is to balance between the use of visual information in the image and
prior linguistic knowledge acquired from pretraining.We designed a novel
self-resurrecting encoder-decoder attention mechanism to quickly adapt the
pretrained LM as the language decoder on a small amount of in-domain training
data. The pro-posed self-resurrecting activation unit produces sparse
activations but is not susceptible to zero gradients. When trained on 0.1%,
0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT,
surpasses strong image captioning baselines. VisualGPT outperforms the best
baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on
Conceptual Captions.We also perform a series of ablation studies to quantify
the utility of each system component. To the best of our knowledge, this is the
first work that improves data efficiency of image captioning by utilizing LM
pretrained on unimodal data. Our code is available at:
https://github.com/Vision-CAIR/VisualGPT.
- Abstract(参考訳): 本稿では,画像キャプションのデータ効率を改善することを目的とする。
大規模学習言語モデル(LM)の言語知識を活用した,データ効率の高い画像キャプションモデルであるVisualGPTを提案する。
画像における視覚情報の利用とプリトレーニングから得られた以前の言語知識のバランスをとることが重要な課題であり、少量のインドメイントレーニングデータにプリトレーニングされたLMを言語デコーダとして迅速に適応する新しい自己回復型エンコーダデコーダ注意メカニズムを設計しました。
pro-posed self-rerecting activation unitはスパースアクティベーションを生成するが、勾配がゼロになることはない。
MSCOCOとコンセプチュアルキャプションの0.1%、0.5%、1%でトレーニングすると、提案されたモデルVisualGPTは強力なイメージキャプションベースラインを超えます。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを超え、また、各システムコンポーネントの有用性を定量化する一連のアブレーション研究を行っています。
私たちの知る限りでは、ユニモーダルデータで事前トレーニングされたlmを利用することで、画像キャプションのデータ効率を向上させる最初の作業です。
コードはhttps://github.com/Vision-CAIR/VisualGPTで入手できます。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation [23.631184498984933]
自然言語は、監督された「ゴールド」ラベルよりも広く、より豊かな監督源であることが示されている。
ソフトラベルを用いてノイズの多い画像とテキストのペアから学習する,データ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
論文 参考訳(メタデータ) (2021-04-18T19:55:31Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。