論文の概要: Semi-Autoregressive Image Captioning
- arxiv url: http://arxiv.org/abs/2110.05342v1
- Date: Mon, 11 Oct 2021 15:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:49:00.248620
- Title: Semi-Autoregressive Image Captioning
- Title(参考訳): 半自己回帰画像キャプション
- Authors: Xu Yan, Zhengcong Fei, Zekang Li, Shuhui Wang, Qingming Huang, Qi Tian
- Abstract要約: 画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 153.9658053662605
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current state-of-the-art approaches for image captioning typically adopt an
autoregressive manner, i.e., generating descriptions word by word, which
suffers from slow decoding issue and becomes a bottleneck in real-time
applications. Non-autoregressive image captioning with continuous iterative
refinement, which eliminates the sequential dependence in a sentence
generation, can achieve comparable performance to the autoregressive
counterparts with a considerable acceleration. Nevertheless, based on a
well-designed experiment, we empirically proved that iteration times can be
effectively reduced when providing sufficient prior knowledge for the language
decoder. Towards that end, we propose a novel two-stage framework, referred to
as Semi-Autoregressive Image Captioning (SAIC), to make a better trade-off
between performance and speed. The proposed SAIC model maintains autoregressive
property in global but relieves it in local. Specifically, SAIC model first
jumpily generates an intermittent sequence in an autoregressive manner, that
is, it predicts the first word in every word group in order. Then, with the
help of the partially deterministic prior information and image features, SAIC
model non-autoregressively fills all the skipped words with one iteration.
Experimental results on the MS COCO benchmark demonstrate that our SAIC model
outperforms the preceding non-autoregressive image captioning models while
obtaining a competitive inference speedup. Code is available at
https://github.com/feizc/SAIC.
- Abstract(参考訳): 画像キャプションに関する現在の最先端のアプローチでは、一般的には自己回帰的な方法、すなわち単語毎の記述を生成する方法が採用されている。
文生成のシーケンシャルな依存を排除し、連続的な反復洗練を伴う非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
それでも、十分に設計された実験に基づいて、言語デコーダに十分な事前知識を提供することで、繰り返し時間を効果的に削減できることを実証的に証明した。
そこで我々は,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案し,性能と速度のトレードオフを改善する。
提案するsaicモデルは自己回帰特性をグローバルに維持するが,局所的に緩和する。
特に、saicモデルは、最初に自制的な方法で断続的なシーケンスを生成し、すなわち、各単語群における最初の単語を順番に予測する。
そして、部分決定論的事前情報と画像特徴の助けを借りて、SAICモデルはスキップされたすべての単語を1回で非自己回帰的に満たす。
MS COCOベンチマークによる実験結果から,SAICモデルは先行する非自己回帰画像キャプションモデルより優れ,競争速度は向上した。
コードはhttps://github.com/feizc/SAICで入手できる。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - Bounding and Filling: A Fast and Flexible Framework for Image Captioning [5.810020749348207]
本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークについて,バウンディングとフィリング技術を用いて紹介する。
非自己回帰的な方法での我々のフレームワークは、タスク固有のメトリクスCIDErの最先端を実現すると同時に、9.22倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-15T16:17:20Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。