論文の概要: Injecting Semantic Concepts into End-to-End Image Captioning
- arxiv url: http://arxiv.org/abs/2112.05230v1
- Date: Thu, 9 Dec 2021 22:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 02:15:06.285225
- Title: Injecting Semantic Concepts into End-to-End Image Captioning
- Title(参考訳): 終端画像キャプションに意味概念を注入する
- Authors: Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan
Wang, Yezhou Yang, Zicheng Liu
- Abstract要約: 本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
- 参考スコア(独自算出の注目度): 61.41154537334627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tremendous progress has been made in recent years in developing better image
captioning models, yet most of them rely on a separate object detector to
extract regional features. Recent vision-language studies are shifting towards
the detector-free trend by leveraging grid representations for more flexible
model training and faster inference speed. However, such development is
primarily focused on image understanding tasks, and remains less investigated
for the caption generation task. In this paper, we are concerned with a
better-performing detector-free image captioning model, and propose a pure
vision transformer-based image captioning model, dubbed as ViTCAP, in which
grid representations are used without extracting the regional features. For
improved performance, we introduce a novel Concept Token Network (CTN) to
predict the semantic concepts and then incorporate them into the end-to-end
captioning. In particular, the CTN is built on the basis of a vision
transformer and is designed to predict the concept tokens through a
classification task, from which the rich semantic information contained greatly
benefits the captioning task. Compared with the previous detector-based models,
ViTCAP drastically simplifies the architectures and at the same time achieves
competitive performance on various challenging image captioning datasets. In
particular, ViTCAP reaches 138.1 CIDEr scores on COCO-caption Karpathy-split,
93.8 and 108.6 CIDEr scores on nocaps, and Google-CC captioning datasets,
respectively.
- Abstract(参考訳): 近年では画像キャプションモデルの開発が盛んに進んでいるが、そのほとんどは地域的特徴を抽出するために別個の物体検出器に頼っている。
近年の視覚言語研究は、グリッド表現を活用してより柔軟なモデルトレーニングとより高速な推論速度を実現することで、ディテクターフリーな傾向に向かっている。
しかし、こうした開発は主に画像理解タスクに焦点を当てており、キャプション生成タスクについてはあまり調査されていない。
本稿では,より高性能な検出器フリーな画像キャプションモデルについて考察し,地域的特徴を抽出せずにグリッド表現を用いたvitcapと呼ばれる純粋視覚トランスベース画像キャプションモデルを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されており、そこからリッチな意味情報を含むものがキャプションタスクに多大な恩恵をもたらす。
従来の検出器ベースのモデルと比較して、ViTCAPはアーキテクチャを劇的に単純化し、同時に様々な挑戦的な画像キャプションデータセット上での競合性能を達成する。
特に、ViTCAPはCOCOカプセル化Karpathy-splitの138.1 CIDErスコア、nocapsの93.8と108.6 CIDErスコア、Google-CCキャプションデータセットにそれぞれ到達している。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。