論文の概要: Paraphrasing Is All You Need for Novel Object Captioning
- arxiv url: http://arxiv.org/abs/2209.12343v1
- Date: Sun, 25 Sep 2022 22:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:54:09.267349
- Title: Paraphrasing Is All You Need for Novel Object Captioning
- Title(参考訳): 言い換えると、新しいオブジェクトのキャプションに必要なもの
- Authors: Cheng-Fu Yang, Yao-Hung Hubert Tsai, Wan-Cyuan Fan, Ruslan
Salakhutdinov, Louis-Philippe Morency, Yu-Chiang Frank Wang
- Abstract要約: 新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
- 参考スコア(独自算出の注目度): 126.66301869607656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel object captioning (NOC) aims to describe images containing objects
without observing their ground truth captions during training. Due to the
absence of caption annotation, captioning models cannot be directly optimized
via sequence-to-sequence training or CIDEr optimization. As a result, we
present Paraphrasing-to-Captioning (P2C), a two-stage learning framework for
NOC, which would heuristically optimize the output captions via paraphrasing.
With P2C, the captioning model first learns paraphrasing from a language model
pre-trained on text-only corpus, allowing expansion of the word bank for
improving linguistic fluency. To further enforce the output caption
sufficiently describing the visual content of the input image, we perform
self-paraphrasing for the captioning model with fidelity and adequacy
objectives introduced. Since no ground truth captions are available for novel
object images during training, our P2C leverages cross-modality (image-text)
association modules to ensure the above caption characteristics can be properly
preserved. In the experiments, we not only show that our P2C achieves
state-of-the-art performances on nocaps and COCO Caption datasets, we also
verify the effectiveness and flexibility of our learning framework by replacing
language and cross-modality association models for NOC. Implementation details
and code are available in the supplementary materials.
- Abstract(参考訳): 新たなオブジェクトキャプション (NOC) は、トレーニング中に真実のキャプションを観察することなく、オブジェクトを含むイメージを記述することを目的としている。
キャプションアノテーションがないため、シーケンス・ツー・シーケンスのトレーニングやCIDErの最適化によってキャプションモデルを直接最適化することはできない。
そこで本研究では,nocのための2段階学習フレームワークであるparaphrasing-to-captioning (p2c)を提案する。
p2cでは、字幕モデルはまず、テキストのみのコーパスで事前学習された言語モデルからパラフレージングを学習し、単語バンクの拡張を可能にし、言語流動性を改善する。
さらに,入力画像の視覚的内容が十分に記述された出力キャプションを強制するために,キャプションモデルに対して,忠実度と妥当性を考慮した自己表現を行う。
我々のP2Cは、トレーニング中に新しいオブジェクト画像に真実のキャプションが存在しないため、上記のキャプション特性を適切に保存できるように、相互モダリティ(画像テキスト)アソシエーションモジュールを活用している。
実験では,私たちのP2CがnocapsとCOCO Captionデータセット上で最先端のパフォーマンスを達成するだけでなく,NOCの言語および相互モダリティ関連モデルを置き換えることで,学習フレームワークの有効性と柔軟性を検証する。
実装の詳細とコードは補足資料で確認できる。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。