論文の概要: A Deep Neural Framework for Image Caption Generation Using GRU-Based
Attention Mechanism
- arxiv url: http://arxiv.org/abs/2203.01594v1
- Date: Thu, 3 Mar 2022 09:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 05:15:56.898838
- Title: A Deep Neural Framework for Image Caption Generation Using GRU-Based
Attention Mechanism
- Title(参考訳): GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワーク
- Authors: Rashid Khan, M Shujah Islam, Khadija Kanwal, Mansoor Iqbal, Md. Imran
Hossain, and Zhongfu Ye
- Abstract要約: 本研究では、事前学習された畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し、特徴を注意機構と統合し、繰り返しニューラルネットワーク(RNN)を用いてキャプションを作成するシステムを開発することを目的とする。
MSCOCOデータセットでは、実験結果が最先端のアプローチと競合する性能を達成する。
- 参考スコア(独自算出の注目度): 5.855671062331371
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Image captioning is a fast-growing research field of computer vision and
natural language processing that involves creating text explanations for
images. This study aims to develop a system that uses a pre-trained
convolutional neural network (CNN) to extract features from an image,
integrates the features with an attention mechanism, and creates captions using
a recurrent neural network (RNN). To encode an image into a feature vector as
graphical attributes, we employed multiple pre-trained convolutional neural
networks. Following that, a language model known as GRU is chosen as the
decoder to construct the descriptive sentence. In order to increase
performance, we merge the Bahdanau attention model with GRU to allow learning
to be focused on a specific portion of the image. On the MSCOCO dataset, the
experimental results achieve competitive performance against state-of-the-art
approaches.
- Abstract(参考訳): 画像キャプションは、画像のテキスト説明を作成することを含むコンピュータビジョンと自然言語処理の急速な研究分野である。
本研究では,事前学習した畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し,特徴を注意機構と統合し,繰り返しニューラルネットワーク(RNN)を用いてキャプションを生成するシステムを開発することを目的とする。
画像から特徴ベクトルをグラフィカルな属性としてエンコードするために,複数の事前学習された畳み込みニューラルネットワークを用いた。
その後、GRUとして知られる言語モデルが記述文を構成するデコーダとして選択される。
パフォーマンス向上のために,BahdanauのアテンションモデルとGRUを組み合わせることで,画像の特定の部分に学習を集中させることができる。
MSCOCOデータセットでは、実験結果は最先端のアプローチと競合する性能を達成する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation [9.490898534790977]
本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークをエンコーダとして,画像から特徴を抽出し,文を生成するデコーダとしてGRUベースの言語モデルを用いる。
論文 参考訳(メタデータ) (2023-10-11T07:30:01Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies [1.5990720051907859]
本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。
RNPは、部分階層学習問題に対処する最初の神経生成モデルである。
以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
論文 参考訳(メタデータ) (2022-06-16T22:02:06Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。