論文の概要: VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
- arxiv url: http://arxiv.org/abs/2009.13682v2
- Date: Thu, 4 Mar 2021 20:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:38:37.345717
- Title: VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
- Title(参考訳): VIVO: 新しいオブジェクトキャプションのためのビジュアル語彙事前トレーニング
- Authors: Xiaowei Hu, Xi Yin, Kevin Lin, Lijuan Wang, Lei Zhang, Jianfeng Gao,
Zicheng Liu
- Abstract要約: 本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
- 参考スコア(独自算出の注目度): 128.6138588412508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is highly desirable yet challenging to generate image captions that can
describe novel objects which are unseen in caption-labeled training data, a
capability that is evaluated in the novel object captioning challenge (nocaps).
In this challenge, no additional image-caption training data, other thanCOCO
Captions, is allowed for model training. Thus, conventional Vision-Language
Pre-training (VLP) methods cannot be applied. This paper presents VIsual
VOcabulary pretraining (VIVO) that performs pre-training in the absence of
caption annotations. By breaking the dependency of paired image-caption
training data in VLP, VIVO can leverage large amounts of paired image-tag data
to learn a visual vocabulary. This is done by pre-training a multi-layer
Transformer model that learns to align image-level tags with their
corresponding image region features. To address the unordered nature of image
tags, VIVO uses a Hungarian matching loss with masked tag prediction to conduct
pre-training. We validate the effectiveness of VIVO by fine-tuning the
pre-trained model for image captioning. In addition, we perform an analysis of
the visual-text alignment inferred by our model. The results show that our
model can not only generate fluent image captions that describe novel objects,
but also identify the locations of these objects. Our single model has achieved
new state-of-the-art results on nocaps and surpassed the human CIDEr score.
- Abstract(参考訳): キャプションラベル付きトレーニングデータに見えない新規なオブジェクトを記述できる画像キャプションを生成することは、非常に望ましいが、新規なオブジェクトキャプションチャレンジ(ノーキャップ)で評価される能力である。
この課題では、COCO Captions以外のイメージキャプチャトレーニングデータは、モデルトレーニングには使用できない。
したがって、従来のビジョンランゲージ事前訓練(VLP)法は適用できない。
本稿では、字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
VLPにおけるペア画像キャプチャトレーニングデータの依存を断ち切ることで、VIVOは大量のペア画像タグデータを利用して視覚語彙を学習することができる。
これは、画像レベルのタグを対応する画像領域の特徴に合わせることを学ぶマルチレイヤトランスフォーマーモデルを事前訓練することで実現される。
画像タグの非順序性に対処するため、VIVOはハンガリーのマッチング損失とマスク付きタグ予測を使用して事前トレーニングを行う。
画像キャプションのための訓練済みモデルを微調整し,VIVOの有効性を検証する。
さらに,モデルによって推定される視覚的テキストアライメントの分析を行う。
その結果,本モデルでは,新規なオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別できることがわかった。
我々の1つのモデルは、nocapsで新しい最先端の結果を達成し、人間のCIDErスコアを上回りました。
関連論文リスト
- ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。