論文の概要: TCIC: Theme Concepts Learning Cross Language and Vision for Image
Captioning
- arxiv url: http://arxiv.org/abs/2106.10936v1
- Date: Mon, 21 Jun 2021 09:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:59:54.765707
- Title: TCIC: Theme Concepts Learning Cross Language and Vision for Image
Captioning
- Title(参考訳): TCIC: イメージキャプションのためのクロス言語とビジョンを学ぶコンセプト
- Authors: Zhihao Fan, Zhongyu Wei, Siyuan Wang, Ruize Wang, Zejun Li, Haijun
Shan, Xuanjing Huang
- Abstract要約: テーマの概念を取り入れたテーマコンセプト拡張画像キャプタリングフレームワークを提案する。
画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。
- 参考スコア(独自算出の注目度): 50.30918954390918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research for image captioning usually represents an image using a
scene graph with low-level facts (objects and relations) and fails to capture
the high-level semantics. In this paper, we propose a Theme Concepts extended
Image Captioning (TCIC) framework that incorporates theme concepts to represent
high-level cross-modality semantics. In practice, we model theme concepts as
memory vectors and propose Transformer with Theme Nodes (TTN) to incorporate
those vectors for image captioning. Considering that theme concepts can be
learned from both images and captions, we propose two settings for their
representations learning based on TTN. On the vision side, TTN is configured to
take both scene graph based features and theme concepts as input for visual
representation learning. On the language side, TTN is configured to take both
captions and theme concepts as input for text representation re-construction.
Both settings aim to generate target captions with the same transformer-based
decoder. During the training, we further align representations of theme
concepts learned from images and corresponding captions to enforce the
cross-modality learning. Experimental results on MS COCO show the effectiveness
of our approach compared to some state-of-the-art models.
- Abstract(参考訳): 既存の画像キャプションの研究は、通常、低レベルの事実(オブジェクトと関係)を持つシーングラフを使用して画像を表現するが、高レベルのセマンティクスを捉えない。
本稿では,高レベルなクロスモダリティセマンティクスを表現するために,テーマ概念を取り入れたテーマ概念拡張画像キャプション(tcic)フレームワークを提案する。
実際には、テーマ概念をメモリベクトルとしてモデル化し、そのベクトルを画像キャプションに組み込むために、テーマノード(ttn)付きトランスフォーマを提案する。
画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。
視覚面では、TTNはシーングラフに基づく特徴とテーマ概念の両方を視覚表現学習の入力として扱うように構成されている。
言語面では、TTNはキャプションとテーマの概念の両方をテキスト表現の再構成の入力として扱うように構成されている。
どちらの設定も、同じトランスフォーマーベースのデコーダでターゲットキャプションを生成する。
学習中,画像から学習したテーマ概念の表現と対応するキャプションを連携させ,相互モダリティ学習を強制する。
また,MS COCOを用いた実験結果から,提案手法の有効性が示された。
関連論文リスト
- Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - RefineCap: Concept-Aware Refinement for Image Captioning [34.35093893441625]
我々はRefineCapと呼ばれる新しいモデルを提案し、デコーダ誘導ビジュアルセマンティクスを用いて言語デコーダの出力語彙を洗練させる。
本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-08T10:12:14Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。