論文の概要: Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2005.04690v1
- Date: Sun, 10 May 2020 15:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:19:45.269971
- Title: Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning
- Title(参考訳): 反現実的批判的マルチエージェント学習による非自己回帰画像キャプション
- Authors: Longteng Guo, Jing Liu, Xinxin Zhu, Xingjian He, Jie Jiang, Hanqing Lu
- Abstract要約: 新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
- 参考スコア(独自算出の注目度): 46.060954649681385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image captioning models are autoregressive, i.e. they generate each word
by conditioning on previously generated words, which leads to heavy latency
during inference. Recently, non-autoregressive decoding has been proposed in
machine translation to speed up the inference time by generating all words in
parallel. Typically, these models use the word-level cross-entropy loss to
optimize each word independently. However, such a learning process fails to
consider the sentence-level consistency, thus resulting in inferior generation
quality of these non-autoregressive models. In this paper, we propose a
Non-Autoregressive Image Captioning (NAIC) model with a novel training
paradigm: Counterfactuals-critical Multi-Agent Learning (CMAL). CMAL formulates
NAIC as a multi-agent reinforcement learning system where positions in the
target sequence are viewed as agents that learn to cooperatively maximize a
sentence-level reward. Besides, we propose to utilize massive unlabeled images
to boost captioning performance. Extensive experiments on MSCOCO image
captioning benchmark show that our NAIC model achieves a performance comparable
to state-of-the-art autoregressive models, while brings 13.9x decoding speedup.
- Abstract(参考訳): ほとんどの画像キャプションモデルは自己回帰的であり、例えば、事前に生成された単語を条件付けすることで各単語を生成する。
近年,機械翻訳において,すべての単語を並列に生成することで推論時間を高速化する非自己回帰復号法が提案されている。
通常、これらのモデルは単語レベルのクロスエントロピー損失を使用して各単語を独立に最適化する。
しかし、このような学習プロセスは文レベルの一貫性を考慮せず、結果としてこれらの非自己回帰モデルの生成品質は低下する。
本稿では,非自己回帰的イメージキャプション(NAIC)モデルと,新たなトレーニングパラダイムであるCMAL(Counterfactuals- critical Multi-Agent Learning)を提案する。
CMALはNAICを多エージェント強化学習システムとして定式化し、ターゲットシーケンスの位置を文レベルの報酬を協調的に最大化するエージェントと見なす。
また,大量のラベルなし画像を用いてキャプション性能を向上させることを提案する。
MSCOCO画像キャプションベンチマークの大規模な実験により、NAICモデルは最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現した。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。