論文の概要: Learning Distinct and Representative Styles for Image Captioning
- arxiv url: http://arxiv.org/abs/2209.08231v2
- Date: Tue, 15 Aug 2023 07:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:47:42.626320
- Title: Learning Distinct and Representative Styles for Image Captioning
- Title(参考訳): イメージキャプションのための固有点と代表的スタイルの学習
- Authors: Qi Chen, Chaorui Deng, Qi Wu
- Abstract要約: 画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
- 参考スコア(独自算出の注目度): 24.13549951795951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the years, state-of-the-art (SoTA) image captioning methods have
achieved promising results on some evaluation metrics (e.g., CIDEr). However,
recent findings show that the captions generated by these methods tend to be
biased toward the "average" caption that only captures the most general mode
(a.k.a, language pattern) in the training corpus, i.e., the so-called mode
collapse problem. Affected by it, the generated captions are limited in
diversity and usually less informative than natural image descriptions made by
humans. In this paper, we seek to avoid this problem by proposing a Discrete
Mode Learning (DML) paradigm for image captioning. Our innovative idea is to
explore the rich modes in the training caption corpus to learn a set of "mode
embeddings", and further use them to control the mode of the generated captions
for existing image captioning models. Specifically, the proposed DML optimizes
a dual architecture that consists of an image-conditioned discrete variational
autoencoder (CdVAE) branch and a mode-conditioned image captioning (MIC)
branch. The CdVAE branch maps each image caption to one of the mode embeddings
stored in a learned codebook, and is trained with a pure non-autoregressive
generation objective to make the modes distinct and representative. The MIC
branch can be simply modified from an existing image captioning model, where
the mode embedding is added to the original word embeddings as the control
signal. In the experiments, we apply the proposed DML to two widely used image
captioning models, Transformer and AoANet. The results show that the learned
mode embedding successfully facilitates these models to generate high-quality
image captions with different modes, further leading to better performance for
both diversity and quality on the MSCOCO dataset.
- Abstract(参考訳): 長年にわたり、最先端(SoTA)画像キャプション手法は、いくつかの評価指標(例えばCIDEr)で有望な結果を得た。
しかし、近年の研究では、これらの手法によって生成されたキャプションは、トレーニングコーパスの最も一般的なモード(言語パターン)のみをキャプチャする「平均」キャプション、すなわちいわゆるモード崩壊問題に偏りがあることが示されている。
その影響で生成されたキャプションは多様性に制限され、人間による自然なイメージ記述よりも情報に乏しい。
本稿では,画像キャプションのための離散モード学習(DML)パラダイムを提案することによって,この問題を回避する。
私たちの革新的なアイデアは、トレーニングキャプションコーパスのリッチなモードを調べて、"モード埋め込み"のセットを学び、さらに既存の画像キャプションモデルで生成されたキャプションのモードを制御することです。
具体的には、画像条件付き離散変分オートエンコーダ(CdVAE)ブランチとモード条件付きイメージキャプション(MIC)ブランチで構成されるデュアルアーキテクチャを最適化する。
CdVAEブランチは、各画像キャプションを学習コードブックに格納されたモード埋め込みの1つにマッピングし、純粋な非自己回帰生成目標を用いてトレーニングし、モードを区別し、代表する。
MICブランチは、モード埋め込みを制御信号として元の単語埋め込みに追加する既存の画像キャプションモデルから簡単に変更することができる。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
その結果、学習モード埋め込みは、異なるモードの高品質な画像キャプションを生成するのに成功し、mscocoデータセットの多様性と品質の両方でパフォーマンスが向上することが示された。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。