論文の概要: Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model
- arxiv url: http://arxiv.org/abs/2102.07192v1
- Date: Sun, 14 Feb 2021 16:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 03:25:54.106845
- Title: Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model
- Title(参考訳): ディープ畳み込みニューラルネットワークに基づくエンコーダデコーダモデルによるベンガル画像キャプションの改善
- Authors: Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, and Md. Saiful
Islam
- Abstract要約: 本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
- 参考スコア(独自算出の注目度): 0.8793721044482612
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image Captioning is an arduous task of producing syntactically and
semantically correct textual descriptions of an image in natural language with
context related to the image. Existing notable pieces of research in Bengali
Image Captioning (BIC) are based on encoder-decoder architecture. This paper
presents an end-to-end image captioning system utilizing a multimodal
architecture by combining a one-dimensional convolutional neural network (CNN)
to encode sequence information with a pre-trained ResNet-50 model image encoder
for extracting region-based visual features. We investigate our approach's
performance on the BanglaLekhaImageCaptions dataset using the existing
evaluation metrics and perform a human evaluation for qualitative analysis.
Experiments show that our approach's language encoder captures the fine-grained
information in the caption, and combined with the image features, it generates
accurate and diversified caption. Our work outperforms all the existing BIC
works and achieves a new state-of-the-art (SOTA) performance by scoring 0.651
on BLUE-1, 0.572 on CIDEr, 0.297 on METEOR, 0.434 on ROUGE, and 0.357 on SPICE.
- Abstract(参考訳): 画像キャプション(Image Captioning)は、自然言語で画像の構文的および意味的に正しいテキスト記述を、画像に関連するコンテキストで作成する難しい作業です。
既存のベンガル画像キャプチャ(BIC)の研究はエンコーダ-デコーダアーキテクチャに基づいている。
本稿では,一次元畳み込みニューラルネットワーク(CNN)を組み合わさったマルチモーダルアーキテクチャを用いた画像キャプションシステムについて,事前学習したResNet-50モデル画像エンコーダを用いて領域ベース視覚特徴の抽出を行う。
既存の評価指標を用いてBanglaLekhaImageCaptionsデータセット上でのアプローチのパフォーマンスを調査し、定性分析のための人間評価を行います。
実験の結果,提案手法の言語エンコーダはキャプション内の細粒度情報を捕捉し,画像特徴と組み合わせることで,正確かつ多種多様なキャプションを生成することがわかった。
BLUE-1の0.651、CIDErの0.572、METEORの0.297、ROUGEの0.434、SPICEの0.357を基準に、既存のBIC作品に匹敵するパフォーマンスを実現。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network [0.5260346080244567]
本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-10-24T13:33:23Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。