論文の概要: Image to Bengali Caption Generation Using Deep CNN and Bidirectional
Gated Recurrent Unit
- arxiv url: http://arxiv.org/abs/2012.12139v1
- Date: Tue, 22 Dec 2020 16:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:39:38.702070
- Title: Image to Bengali Caption Generation Using Deep CNN and Bidirectional
Gated Recurrent Unit
- Title(参考訳): 深部CNNと双方向Gated Recurrent Unitを用いたベンガリカプセル生成
- Authors: Al Momin Faruk, Hasan Al Faraby, Md. Muzahidul Azad, Md. Riduyan
Fedous, Md. Kishor Morol
- Abstract要約: ベンガル語の記述の生成に関する注目すべき研究はほとんどない。
ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。
本稿では,キャプション生成にエンコーダデコーダを用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is very little notable research on generating descriptions of the
Bengali language. About 243 million people speak in Bengali, and it is the 7th
most spoken language on the planet. The purpose of this research is to propose
a CNN and Bidirectional GRU based architecture model that generates natural
language captions in the Bengali language from an image. Bengali people can use
this research to break the language barrier and better understand each other's
perspectives. It will also help many blind people with their everyday lives.
This paper used an encoder-decoder approach to generate captions. We used a
pre-trained Deep convolutional neural network (DCNN) called InceptonV3image
embedding model as the encoder for analysis, classification, and annotation of
the dataset's images Bidirectional Gated Recurrent unit (BGRU) layer as the
decoder to generate captions. Argmax and Beam search is used to produce the
highest possible quality of the captions. A new dataset called BNATURE is used,
which comprises 8000 images with five captions per image. It is used for
training and testing the proposed model. We obtained BLEU-1, BLEU-2, BLEU-3,
BLEU-4 and Meteor is 42.6, 27.95, 23, 66, 16.41, 28.7 respectively.
- Abstract(参考訳): ベンガル語の記述の生成に関する注目すべき研究はほとんどない。
ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。
本研究の目的は,ベンガル語における自然言語キャプションを画像から生成するCNNおよび双方向GRUアーキテクチャモデルを提案することである。
ベンガルの人々はこの研究を使って言語障壁を破り、互いの視点をよりよく理解することができる。
また、多くの盲人の日常生活にも役立ちます。
本稿ではエンコーダ・デコーダ法を用いてキャプションを生成する。
inceptonv3image embedded modelと呼ばれる,事前学習された深層畳み込みニューラルネットワーク(dcnn)を解析,分類,アノテーションのためのエンコーダとして使用し,キャプションを生成する。
argmax と beam search はキャプションの最も高い品質を生み出すために使用される。
BNATUREと呼ばれる新しいデータセットは、8000の画像と5つのキャプションからなる。
提案したモデルのトレーニングとテストに使用される。
BLEU-1,BLEU-2,BLEU-3,BLEU-4,Meteorはそれぞれ42.6,27.95,23,66,16.41,28.7であった。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN [0.0]
我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
CUBデータセットをGoogle翻訳と人手による手作業でバハサに翻訳する。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3のイメージを生成する。
論文 参考訳(メタデータ) (2023-03-25T16:54:22Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network [0.5260346080244567]
本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-10-24T13:33:23Z) - Bornon: Bengali Image Captioning with Transformer-based Deep learning
approach [0.0]
トランスフォーマーモデルは、英語のデータセットを使用して画像からキャプションを生成するために使用される。
我々は3つの異なるベンガルデータセットを用いて、Transformerモデルを用いて画像からベンガルキャプションを生成した。
変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。
論文 参考訳(メタデータ) (2021-09-11T08:29:26Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z) - Efficient Urdu Caption Generation using Attention based LSTM [0.0]
ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。
我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-08-02T17:22:33Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。