論文の概要: End-to-End Transformer Based Model for Image Captioning
- arxiv url: http://arxiv.org/abs/2203.15350v1
- Date: Tue, 29 Mar 2022 08:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:09:15.677182
- Title: End-to-End Transformer Based Model for Image Captioning
- Title(参考訳): 画像キャプションのためのエンド・ツー・エンド変圧器ベースモデル
- Authors: Yiyu Wang, Jungang Xu, Yingfei Sun
- Abstract要約: Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
- 参考スコア(独自算出の注目度): 1.4303104706989949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CNN-LSTM based architectures have played an important role in image
captioning, but limited by the training efficiency and expression ability,
researchers began to explore the CNN-Transformer based models and achieved
great success. Meanwhile, almost all recent works adopt Faster R-CNN as the
backbone encoder to extract region-level features from given images. However,
Faster R-CNN needs a pre-training on an additional dataset, which divides the
image captioning task into two stages and limits its potential applications. In
this paper, we build a pure Transformer-based model, which integrates image
captioning into one stage and realizes end-to-end training. Firstly, we adopt
SwinTransformer to replace Faster R-CNN as the backbone encoder to extract
grid-level features from given images; Then, referring to Transformer, we build
a refining encoder and a decoder. The refining encoder refines the grid
features by capturing the intra-relationship between them, and the decoder
decodes the refined features into captions word by word. Furthermore, in order
to increase the interaction between multi-modal (vision and language) features
to enhance the modeling capability, we calculate the mean pooling of grid
features as the global feature, then introduce it into refining encoder to
refine with grid features together, and add a pre-fusion process of refined
global feature and generated words in decoder. To validate the effectiveness of
our proposed model, we conduct experiments on MSCOCO dataset. The experimental
results compared to existing published works demonstrate that our model
achieves new state-of-the-art performances of 138.2% (single model) and 141.0%
(ensemble of 4 models) CIDEr scores on `Karpathy' offline test split and 136.0%
(c5) and 138.3% (c40) CIDEr scores on the official online test server. Trained
models and source code will be released.
- Abstract(参考訳): CNN-LSTMベースのアーキテクチャは画像キャプションにおいて重要な役割を担っているが、訓練効率と表現能力によって制限され、研究者はCNN-Transformerベースのモデルを探求し、大きな成功を収めた。
一方、最近のほとんどの研究では、与えられた画像から領域レベルの特徴を抽出するバックボーンエンコーダとしてFaster R-CNNを採用している。
しかし、Faster R-CNNは追加のデータセットで事前トレーニングを必要とし、イメージキャプションタスクを2つのステージに分割し、潜在的なアプリケーションを制限する。
本稿では,画像キャプションをひとつのステージに統合し,エンドツーエンドのトレーニングを実現するトランスフォーマーモデルを構築する。
まず、Faster R-CNNをバックボーンエンコーダとして置き換えるためにSwinTransformerを採用し、与えられた画像からグリッドレベルの特徴を抽出する。
精製エンコーダは、それらの間の関係を捕捉してグリッド特徴を洗練し、デコーダは精製した特徴を単語単位でキャプションワードにデコードする。
さらに,マルチモーダル(視覚と言語)機能間の相互作用を増大させ,モデリング能力を向上させるために,グリッド特徴の平均プーリングをグローバル特徴として計算し,グリッド特徴を洗練するためのエンコーダに導入し,グローバル特徴と生成された単語をデコーダにプリフュージョンするプロセスを追加する。
提案手法の有効性を検証するため,MSCOCOデータセットを用いて実験を行った。
実験結果から,我々のモデルは,オンラインテストサーバ上での「カルパシー」のオフラインテスト分割と136.0% (c5) と138.3% (c40) CIDErのスコアに対して,138.2% (シングルモデル),141.0% (4モデルのアンサンブル) CIDErのスコアが得られた。
トレーニングされたモデルとソースコードがリリースされる。
関連論文リスト
- Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition
using a Novel Transformers-based Model and an Innovative 270 Million-Words
Multi-Font Corpus of Classical Arabic with Diacritics [0.0]
この研究は、アラビア歴史文書の光学文字認識(OCR)の開発に関する一連の研究の第2段階である。
本稿では,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-20T22:21:19Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。