論文の概要: Exploring Discrete Diffusion Models for Image Captioning
- arxiv url: http://arxiv.org/abs/2211.11694v1
- Date: Mon, 21 Nov 2022 18:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:24:53.283181
- Title: Exploring Discrete Diffusion Models for Image Captioning
- Title(参考訳): 画像キャプションのための離散拡散モデルの探索
- Authors: Zixin Zhu, Yixuan Wei, Jianfeng Wang, Zhe Gan, Zheng Zhang, Le Wang,
Gang Hua, Lijuan Wang, Zicheng Liu, Han Hu
- Abstract要約: DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
- 参考スコア(独自算出の注目度): 104.69608826164216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The image captioning task is typically realized by an auto-regressive method
that decodes the text tokens one by one. We present a diffusion-based
captioning model, dubbed the name DDCap, to allow more decoding flexibility.
Unlike image generation, where the output is continuous and redundant with a
fixed length, texts in image captions are categorical and short with varied
lengths. Therefore, naively applying the discrete diffusion model to text
decoding does not work well, as shown in our experiments. To address the
performance gap, we propose several key techniques including best-first
inference, concentrated attention mask, text length prediction, and image-free
training. On COCO without additional caption pre-training, it achieves a CIDEr
score of 117.8, which is +5.0 higher than the auto-regressive baseline with the
same architecture in the controlled setting. It also performs +26.8 higher
CIDEr score than the auto-regressive baseline (230.3 v.s.203.5) on a caption
infilling task. With 4M vision-language pre-training images and the base-sized
model, we reach a CIDEr score of 125.1 on COCO, which is competitive to the
best well-developed auto-regressive frameworks. The code is available at
https://github.com/buxiangzhiren/DDCap.
- Abstract(参考訳): 画像キャプションタスクは通常、テキストトークンを1つずつデコードする自動回帰メソッドによって実現される。
我々は,ddcapと呼ばれる拡散型キャプションモデルを提案する。
出力が一定長さで連続かつ冗長である画像生成とは異なり、画像キャプションのテキストはカテゴリー的であり、長さの異なる短い。
したがって, 離散拡散モデルをテキストデコーディングに適用することは, 実験で示したようにうまく機能しない。
パフォーマンスのギャップに対処するために,ベストファースト推論,集中注意マスク,テキスト長予測,イメージフリートレーニングなど,いくつかの重要な手法を提案する。
追加のキャプションなしのCOCOでは、CIDErスコアは117.8であり、制御された設定で同じアーキテクチャを持つ自動回帰ベースラインよりも+5.0高い。
オートレグレッシブベースライン(230.3 v.s.203.5)よりもキャプションインフィルタスクで+26.8高いCIDErスコアを実行する。
4Mビジョン言語による事前学習画像とベースサイズのモデルにより、COCO上でのCIDErスコア125.1に達する。
コードはhttps://github.com/buxiangzhiren/DDCapで入手できる。
関連論文リスト
- Bounding and Filling: A Fast and Flexible Framework for Image Captioning [5.810020749348207]
本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークについて,バウンディングとフィリング技術を用いて紹介する。
非自己回帰的な方法での我々のフレームワークは、タスク固有のメトリクスCIDErの最先端を実現すると同時に、9.22倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-15T16:17:20Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - CLIP-Diffusion-LM: Apply Diffusion Model on Image Captioning [0.0]
画像合成タスクにおけるデノナイズ拡散モデルの成功に触発され、画像キャプションタスクにおけるテキスト生成にデノナイズ拡散確率モデルを適用した。
CLIP-Diffusion-LMは自己回帰モデルよりもはるかに少ない推論ステップで画像キャプションを生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-10T10:55:53Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。