論文の概要: Partially-supervised novel object captioning leveraging context from
paired data
- arxiv url: http://arxiv.org/abs/2109.05115v1
- Date: Fri, 10 Sep 2021 21:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:07:30.795913
- Title: Partially-supervised novel object captioning leveraging context from
paired data
- Title(参考訳): ペアデータからの文脈を利用した部分教師付き新規オブジェクトキャプション
- Authors: Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo
- Abstract要約: 既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
- 参考スコア(独自算出の注目度): 11.215352918313577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an approach to improve image captioning solutions
for images with novel objects that do not have caption labels in the training
dataset. Our approach is agnostic to model architecture, and primarily focuses
on training technique that uses existing fully paired image-caption data and
the images with only the novel object detection labels (partially paired data).
We create synthetic paired captioning data for these novel objects by
leveraging context from existing image-caption pairs. We further re-use these
partially paired images with novel objects to create pseudo-label captions that
are used to fine-tune the captioning model. Using a popular captioning model
(Up-Down) as baseline, our approach achieves state-of-the-art results on
held-out MS COCO out-of-domain test split, and improves F1 metric and CIDEr for
novel object images by 75.8 and 26.6 points respectively, compared to baseline
model that does not use partially paired images during training.
- Abstract(参考訳): 本稿では,学習データセットにキャプションラベルを持たない新規なオブジェクトを用いた画像のキャプションソリューションを改善する手法を提案する。
我々のアプローチはモデルアーキテクチャに非依存であり、主に、既存の完全対画像キャプチャデータと、新しいオブジェクト検出ラベル(一部対画像)のみを用いた画像のトレーニング技術に焦点を当てている。
既存の画像キャプションペアからコンテキストを活用することで,これらの新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに,これらの部分的対の画像を新たなオブジェクトと再使用し,字幕モデルを微調整する擬似ラベルキャプションを作成する。
一般的なキャプションモデル (Up-Down) をベースラインとして, 保持状態のMS COCOアウト・オブ・ドメインテスト分割における最先端結果を実現し, 新たなオブジェクト画像に対するF1メトリックスとCIDErを, トレーニング中に一部ペア画像を使用しないベースラインモデルと比較してそれぞれ75.8ポイント, 26.6ポイント改善する。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - The Solution for the CVPR2023 NICE Image Captioning Challenge [11.37047794237074]
我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
論文 参考訳(メタデータ) (2023-10-10T09:09:41Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Learning to Select: A Fully Attentive Approach for Novel Object
Captioning [48.497478154384105]
新たなオブジェクトキャプション(NOC)は、トレーニング期間中に見えないオブジェクトに対してキャプションモデルをテストするパラダイムとして最近登場した。
我々は,トレーニングセットへの準拠性に関係なく,画像の最も関連性の高いオブジェクトを選択することを学習するNOCに対して,新しいアプローチを提案する。
私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。
論文 参考訳(メタデータ) (2021-06-02T19:11:21Z) - Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文 参考訳(メタデータ) (2021-02-07T23:11:33Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。