論文の概要: Bornon: Bengali Image Captioning with Transformer-based Deep learning
approach
- arxiv url: http://arxiv.org/abs/2109.05218v1
- Date: Sat, 11 Sep 2021 08:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 13:38:35.431042
- Title: Bornon: Bengali Image Captioning with Transformer-based Deep learning
approach
- Title(参考訳): Bornon: TransformerベースのディープラーニングアプローチによるBengaliイメージキャプション
- Authors: Faisal Muhammad Shah, Mayeesha Humaira, Md Abidur Rahman Khan Jim,
Amit Saha Ami and Shimul Paul
- Abstract要約: トランスフォーマーモデルは、英語のデータセットを使用して画像からキャプションを生成するために使用される。
我々は3つの異なるベンガルデータセットを用いて、Transformerモデルを用いて画像からベンガルキャプションを生成した。
変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning using Encoder-Decoder based approach where CNN is used as
the Encoder and sequence generator like RNN as Decoder has proven to be very
effective. However, this method has a drawback that is sequence needs to be
processed in order. To overcome this drawback some researcher has utilized the
Transformer model to generate captions from images using English datasets.
However, none of them generated captions in Bengali using the transformer
model. As a result, we utilized three different Bengali datasets to generate
Bengali captions from images using the Transformer model. Additionally, we
compared the performance of the transformer-based model with a visual
attention-based Encoder-Decoder approach. Finally, we compared the result of
the transformer-based model with other models that employed different Bengali
image captioning datasets.
- Abstract(参考訳): エンコーダ-デコーダベースのアプローチによる画像キャプションでは、CNNがエンコーダとして、RNNがデコーダとして、シーケンスジェネレータとして使用される。
しかし、この方法にはシーケンスを順番に処理しなければならない欠点がある。
この欠点を克服するために、ある研究者はTransformerモデルを使用して、英語のデータセットを使用して画像からキャプションを生成する。
しかし、ベンガル語でトランスフォーマーモデルを用いたキャプションは作成されなかった。
その結果,3種類のベンガルデータセットを用いてトランスフォーマーモデルを用いて画像からベンガルキャプションを生成することができた。
さらに,トランスモデルの性能を視覚的注意に基づくエンコーダ・デコーダ手法と比較した。
最後に,変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。
関連論文リスト
- A Simple Text to Video Model via Transformer [4.035107857147382]
本稿では,Transformerをベースとした汎用的でシンプルなテキストをビデオモデルに提示する。
テキストもビデオもシーケンシャルなデータなので、テキストも画像も同じ隠れ空間にエンコードします。
GPT2を使用して、UCF101データセット上でアプローチをテストし、有望なビデオを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-26T05:26:30Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network [0.5260346080244567]
本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-10-24T13:33:23Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z) - CPTR: Full Transformer Network for Image Captioning [15.869556479220984]
CaPtion TransformeR(CPTR)は、シーケンシャル化された生画像をTransformerへの入力として取り込む。
cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化することができる。
論文 参考訳(メタデータ) (2021-01-26T14:29:52Z) - Image to Bengali Caption Generation Using Deep CNN and Bidirectional
Gated Recurrent Unit [0.0]
ベンガル語の記述の生成に関する注目すべき研究はほとんどない。
ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。
本稿では,キャプション生成にエンコーダデコーダを用いた。
論文 参考訳(メタデータ) (2020-12-22T16:22:02Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。