論文の概要: Semi-Autoregressive Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2106.09436v1
- Date: Thu, 17 Jun 2021 12:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:50:22.450163
- Title: Semi-Autoregressive Transformer for Image Captioning
- Title(参考訳): 画像キャプション用半自己回帰変換器
- Authors: Yuanen Zhou, Yong Zhang, Zhenzhen Hu, Meng Wang
- Abstract要約: 画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
- 参考スコア(独自算出の注目度): 17.533503295862808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art image captioning models adopt autoregressive
decoders, \ie they generate each word by conditioning on previously generated
words, which leads to heavy latency during inference. To tackle this issue,
non-autoregressive image captioning models have recently been proposed to
significantly accelerate the speed of inference by generating all words in
parallel. However, these non-autoregressive models inevitably suffer from large
generation quality degradation since they remove words dependence excessively.
To make a better trade-off between speed and quality, we introduce a
semi-autoregressive model for image captioning~(dubbed as SATIC), which keeps
the autoregressive property in global but generates words parallelly in local.
Based on Transformer, there are only a few modifications needed to implement
SATIC. Extensive experiments on the MSCOCO image captioning benchmark show that
SATIC can achieve a better trade-off without bells and whistles. Code is
available at {\color{magenta}\url{https://github.com/YuanEZhou/satic}}.
- Abstract(参考訳): 現在の最先端の画像キャプションモデルは自動回帰デコーダを採用しており、事前に生成された単語を条件付けして各単語を生成する。
この問題に対処するため、最近、全ての単語を並列に生成することで推論の速度を大幅に高速化する非自己回帰画像キャプションモデルが提案されている。
しかし、これらの非自己回帰モデルは、単語依存を過剰に除去するため、必然的に大きな世代品質劣化に悩まされる。
速度と品質のトレードオフを改善するため,画像キャプションの半自己回帰モデル(SATIC)を導入し,グローバルな自己回帰特性を維持しつつ,局所的に単語を並列に生成する。
Transformerに基づいて、SATICを実装するのに必要な変更はわずかである。
MSCOCO画像キャプションベンチマークの大規模な実験により、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
コードは {\color{magenta}\url{https://github.com/YuanEZhou/satic}}で入手できる。
関連論文リスト
- Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Bounding and Filling: A Fast and Flexible Framework for Image Captioning [5.810020749348207]
本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークについて,バウンディングとフィリング技術を用いて紹介する。
非自己回帰的な方法での我々のフレームワークは、タスク固有のメトリクスCIDErの最先端を実現すると同時に、9.22倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-15T16:17:20Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。