論文の概要: Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning
- arxiv url: http://arxiv.org/abs/2303.02648v1
- Date: Sun, 5 Mar 2023 11:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:34:21.048025
- Title: Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning
- Title(参考訳): 画像キャプションの注意機構を考慮したトランスフォーマーとLSTMネットワークの比較検討
- Authors: Pranav Dandwate, Chaitanya Shahane, Vandana Jagtap, Shridevi C.
Karande
- Abstract要約: 本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。
注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a globalized world at the present epoch of generative intelligence, most
of the manual labour tasks are automated with increased efficiency. This can
support businesses to save time and money. A crucial component of generative
intelligence is the integration of vision and language. Consequently, image
captioning become an intriguing area of research. There have been multiple
attempts by the researchers to solve this problem with different deep learning
architectures, although the accuracy has increased, but the results are still
not up to standard. This study buckles down to the comparison of Transformer
and LSTM with attention block model on MS-COCO dataset, which is a standard
dataset for image captioning. For both the models we have used pretrained
Inception-V3 CNN encoder for feature extraction of the images. The Bilingual
Evaluation Understudy score (BLEU) is used to checked the accuracy of caption
generated by both models. Along with the transformer and LSTM with attention
block models,CLIP-diffusion model, M2-Transformer model and the X-Linear
Attention model have been discussed with state of the art accuracy.
- Abstract(参考訳): 現在のジェネレーティブ・インテリジェンス時代におけるグローバル化世界では、手作業のほとんどが自動化され、効率が向上している。
これにより、時間とお金を節約できる。
生成知性の重要な構成要素は、視覚と言語の統合である。
その結果、画像キャプションは興味深い研究領域となった。
研究者たちは、さまざまなディープラーニングアーキテクチャでこの問題を解決しようとしたが、精度は向上したが、結果はまだ標準には至っていない。
本研究は,画像キャプションの標準データセットであるMS-COCOデータセットのアテンションブロックモデルとTransformer と LSTM を比較した。
どちらのモデルもプリトレーニングされたinception-v3 cnnエンコーダを使用して画像の特徴抽出を行った。
両モデルで生成されたキャプションの精度を確認するために,バイリンガル評価アンダースタディスコア(BLEU)を用いる。
注目ブロックモデル,CLIP拡散モデル,M2-Transformerモデル,X-Linear Attentionモデルを含むトランスフォーマーおよびLSTMとともに,その精度について検討した。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval [17.70430913227593]
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
論文 参考訳(メタデータ) (2023-11-13T02:49:57Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition
using a Novel Transformers-based Model and an Innovative 270 Million-Words
Multi-Font Corpus of Classical Arabic with Diacritics [0.0]
この研究は、アラビア歴史文書の光学文字認識(OCR)の開発に関する一連の研究の第2段階である。
本稿では,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-20T22:21:19Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。