論文の概要: Learning to Select: A Fully Attentive Approach for Novel Object
Captioning
- arxiv url: http://arxiv.org/abs/2106.01424v1
- Date: Wed, 2 Jun 2021 19:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:22:47.816814
- Title: Learning to Select: A Fully Attentive Approach for Novel Object
Captioning
- Title(参考訳): 選択の学習:新しいオブジェクトキャプションのための完全な注意的アプローチ
- Authors: Marco Cagrandi, Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi,
Rita Cucchiara
- Abstract要約: 新たなオブジェクトキャプション(NOC)は、トレーニング期間中に見えないオブジェクトに対してキャプションモデルをテストするパラダイムとして最近登場した。
我々は,トレーニングセットへの準拠性に関係なく,画像の最も関連性の高いオブジェクトを選択することを学習するNOCに対して,新しいアプローチを提案する。
私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。
- 参考スコア(独自算出の注目度): 48.497478154384105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning models have lately shown impressive results when applied to
standard datasets. Switching to real-life scenarios, however, constitutes a
challenge due to the larger variety of visual concepts which are not covered in
existing training sets. For this reason, novel object captioning (NOC) has
recently emerged as a paradigm to test captioning models on objects which are
unseen during the training phase. In this paper, we present a novel approach
for NOC that learns to select the most relevant objects of an image, regardless
of their adherence to the training set, and to constrain the generative process
of a language model accordingly. Our architecture is fully-attentive and
end-to-end trainable, also when incorporating constraints. We perform
experiments on the held-out COCO dataset, where we demonstrate improvements
over the state of the art, both in terms of adaptability to novel objects and
caption quality.
- Abstract(参考訳): 画像キャプションモデルは最近、標準的なデータセットに適用すると印象的な結果が得られた。
しかし、現実のシナリオに切り替えることは、既存のトレーニングセットでカバーされていない、より多種多様なビジュアルコンセプトによって、課題となる。
このため、最近、トレーニングフェーズで目に見えないオブジェクトのキャプションモデルをテストするパラダイムとして、斬新なオブジェクトキャプション(noc)が登場している。
本稿では,画像の最も関連性の高い対象を学習するnocに対して,学習セットへの順応性によらず選択し,それに従って言語モデルの生成過程を制約する新しい手法を提案する。
私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。
保持されたCOCOデータセットで実験を行い、新しいオブジェクトへの適応性とキャプションの品質の両方の観点から、最先端の技術を実証した。
関連論文リスト
- OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - CaMEL: Mean Teacher Learning for Image Captioning [47.9708610052655]
画像キャプションのためのトランスフォーマーベースの新しいアーキテクチャであるCaMELを提案する。
提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。
実験により,COCOデータセットと異なる視覚的特徴抽出器との併用により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-02-21T19:04:46Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。