論文の概要: Efficient Modeling of Future Context for Image Captioning
- arxiv url: http://arxiv.org/abs/2207.10897v1
- Date: Fri, 22 Jul 2022 06:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:01:47.501612
- Title: Efficient Modeling of Future Context for Image Captioning
- Title(参考訳): 画像キャプションのための未来文脈の効率的なモデル化
- Authors: Zhengcong Fei, Junshi Huang, Xiaoming Wei, Xiaolin Wei
- Abstract要約: 非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
- 参考スコア(独自算出の注目度): 38.52032153180971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to image captioning usually generate the sentence
word-by-word from left to right, with the constraint of conditioned on local
context including the given image and history generated words. There have been
many studies target to make use of global information during decoding, e.g.,
iterative refinement. However, it is still under-explored how to effectively
and efficiently incorporate the future context. To respond to this issue,
inspired by that Non-Autoregressive Image Captioning (NAIC) can leverage
two-side relation with modified mask operation, we aim to graft this advance to
the conventional Autoregressive Image Captioning (AIC) model while maintaining
the inference efficiency without extra time cost. Specifically, AIC and NAIC
models are first trained combined with shared visual encoders, forcing the
visual encoder to contain sufficient and valid future context; then the AIC
model is encouraged to capture the causal dynamics of cross-layer interchanging
from NAIC model on its unconfident words, which follows a teacher-student
paradigm and optimized with the distribution calibration training objective.
Empirical evidences demonstrate that our proposed approach clearly surpass the
state-of-the-art baselines in both automatic metrics and human evaluations on
the MS COCO benchmark. The source code is available at:
https://github.com/feizc/Future-Caption.
- Abstract(参考訳): 画像キャプションに対する既存のアプローチは、通常、与えられた画像や履歴が生成した単語を含む局所的な文脈で条件づけされた制約を伴って、文章を左から右に単語ずつ生成する。
復号化の過程でグローバル情報を利用するための研究が数多く行われてきた。
しかし、将来の文脈を効果的かつ効率的に組み込む方法はまだ解明されていない。
この問題に対処するために,非自己回帰画像キャプチャ(NAIC)がマスク操作の2面関係を活用できることに着想を得て,従来の自己回帰画像キャプチャ(AIC)モデルにこの進歩を移植し,推論効率を余分な時間コストなしで維持することを目指す。
特に、AICモデルとNAICモデルは、まず共有ビジュアルエンコーダと組み合わせて訓練され、視覚エンコーダは、十分な、有効な将来のコンテキストを含むように強制される。
実証的な証拠は,提案手法がMS COCOベンチマークにおける自動測定と人的評価の両方において,最先端のベースラインを明らかに上回っていることを示している。
ソースコードは、https://github.com/feizc/Future-Caption.comで入手できる。
関連論文リスト
- Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization [44.008094698200026]
我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
論文 参考訳(メタデータ) (2024-08-26T18:00:33Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Cross Modification Attention Based Deliberation Model for Image
Captioning [11.897899189552318]
画像キャプションのためのユニバーサル2パスデコードフレームワークを提案する。
シングルパス復号モデルが最初に入力画像に応じてドラフトキャプションを生成する。
次に、検討モデルが研磨処理を行い、ドラフトキャプションを洗練して画像記述を改善する。
論文 参考訳(メタデータ) (2021-09-17T08:38:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。