論文の概要: Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network
- arxiv url: http://arxiv.org/abs/2110.12442v1
- Date: Sun, 24 Oct 2021 13:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 12:26:35.702780
- Title: Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network
- Title(参考訳): CNN変換器を用いたエンコーダデコーダネットワークによるバングラ画像生成
- Authors: Md Aminul Haque Palash, MD Abdullah Al Nasim, Sourav Saha, Faria
Afrin, Raisa Mallik, Sathishkumar Samiappan
- Abstract要約: 本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
- 参考スコア(独自算出の注目度): 0.5260346080244567
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic Image Captioning is the never-ending effort of creating
syntactically and validating the accuracy of textual descriptions of an image
in natural language with context. The encoder-decoder structure used throughout
existing Bengali Image Captioning (BIC) research utilized abstract image
feature vectors as the encoder's input. We propose a novel transformer-based
architecture with an attention mechanism with a pre-trained ResNet-101 model
image encoder for feature extraction from images. Experiments demonstrate that
the language decoder in our technique captures fine-grained information in the
caption and, then paired with image features, produces accurate and diverse
captions on the BanglaLekhaImageCaptions dataset. Our approach outperforms all
existing Bengali Image Captioning work and sets a new benchmark by scoring
0.694 on BLEU-1, 0.630 on BLEU-2, 0.582 on BLEU-3, and 0.337 on METEOR.
- Abstract(参考訳): 自動キャプション(automatic image captioning)とは、自然言語における画像のテキスト記述の正確性を検証する構文的手法である。
既存のベンガル画像キャプション(bic)研究で使用されるエンコーダ・デコーダ構造は、エンコーダの入力として抽象画像特徴ベクトルを用いた。
本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせて,BanglaLekhaImageCaptionsデータセット上で正確かつ多様なキャプションを生成する。
提案手法は既存のベンガル画像キャプチャー処理よりも優れており,BLEU-1では0.694,BLEU-2では0.630,BLEU-3では0.582,METEORでは0.337と評価された。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Bornon: Bengali Image Captioning with Transformer-based Deep learning
approach [0.0]
トランスフォーマーモデルは、英語のデータセットを使用して画像からキャプションを生成するために使用される。
我々は3つの異なるベンガルデータセットを用いて、Transformerモデルを用いて画像からベンガルキャプションを生成した。
変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。
論文 参考訳(メタデータ) (2021-09-11T08:29:26Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z) - Image to Bengali Caption Generation Using Deep CNN and Bidirectional
Gated Recurrent Unit [0.0]
ベンガル語の記述の生成に関する注目すべき研究はほとんどない。
ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。
本稿では,キャプション生成にエンコーダデコーダを用いた。
論文 参考訳(メタデータ) (2020-12-22T16:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。