論文の概要: A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation
- arxiv url: http://arxiv.org/abs/2310.07252v1
- Date: Wed, 11 Oct 2023 07:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:55:23.340858
- Title: A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation
- Title(参考訳): 画像キャプション生成のための事前学習CNNとGRUに基づく注意の比較検討
- Authors: Rashid Khan, Bingding Huang, Haseeb Hassan, Asim Zaman, Zhongfu Ye
- Abstract要約: 本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークをエンコーダとして,画像から特徴を抽出し,文を生成するデコーダとしてGRUベースの言語モデルを用いる。
- 参考スコア(独自算出の注目度): 9.490898534790977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is a challenging task involving generating a textual
description for an image using computer vision and natural language processing
techniques. This paper proposes a deep neural framework for image caption
generation using a GRU-based attention mechanism. Our approach employs multiple
pre-trained convolutional neural networks as the encoder to extract features
from the image and a GRU-based language model as the decoder to generate
descriptive sentences. To improve performance, we integrate the Bahdanau
attention model with the GRU decoder to enable learning to focus on specific
image parts. We evaluate our approach using the MSCOCO and Flickr30k datasets
and show that it achieves competitive scores compared to state-of-the-art
methods. Our proposed framework can bridge the gap between computer vision and
natural language and can be extended to specific domains.
- Abstract(参考訳): 画像キャプションは、コンピュータビジョンと自然言語処理技術を用いて画像のテキスト記述を生成することを伴う課題である。
本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークを用いて,画像から特徴を抽出し,記述文を生成するデコーダとしてGRUベースの言語モデルを用いる。
パフォーマンスを向上させるため、我々はbahdanau attention modelをgruデコーダに統合し、学習者が特定の画像部分に集中できるようにした。
MSCOCO と Flickr30k のデータセットを用いて本手法の評価を行い,最先端の手法と比較して,競争的な結果が得られることを示す。
提案するフレームワークは,コンピュータビジョンと自然言語のギャップを埋め,特定の領域に拡張することができる。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - A Deep Neural Framework for Image Caption Generation Using GRU-Based
Attention Mechanism [5.855671062331371]
本研究では、事前学習された畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し、特徴を注意機構と統合し、繰り返しニューラルネットワーク(RNN)を用いてキャプションを作成するシステムを開発することを目的とする。
MSCOCOデータセットでは、実験結果が最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2022-03-03T09:47:59Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。