論文の概要: Comparative evaluation of CNN architectures for Image Caption Generation
- arxiv url: http://arxiv.org/abs/2102.11506v1
- Date: Tue, 23 Feb 2021 05:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:11:41.561953
- Title: Comparative evaluation of CNN architectures for Image Caption Generation
- Title(参考訳): 画像キャプション生成のためのCNNアーキテクチャの比較評価
- Authors: Sulabh Katiyar, Samir Kumar Borgohain
- Abstract要約: 2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Aided by recent advances in Deep Learning, Image Caption Generation has seen
tremendous progress over the last few years. Most methods use transfer learning
to extract visual information, in the form of image features, with the help of
pre-trained Convolutional Neural Network models followed by transformation of
the visual information using a Caption Generator module to generate the output
sentences. Different methods have used different Convolutional Neural Network
Architectures and, to the best of our knowledge, there is no systematic study
which compares the relative efficacy of different Convolutional Neural Network
architectures for extracting the visual information. In this work, we have
evaluated 17 different Convolutional Neural Networks on two popular Image
Caption Generation frameworks: the first based on Neural Image Caption (NIC)
generation model and the second based on Soft-Attention framework. We observe
that model complexity of Convolutional Neural Network, as measured by number of
parameters, and the accuracy of the model on Object Recognition task does not
necessarily co-relate with its efficacy on feature extraction for Image Caption
Generation task.
- Abstract(参考訳): 近年のディープラーニングの進歩に伴い、画像キャプション生成はここ数年で大きな進歩を遂げています。
ほとんどの方法は、画像特徴の形で視覚情報を抽出するために転送学習を使用し、事前訓練された畳み込みニューラルネットワークモデルと、キャプション生成モジュールを使用して視覚情報を変換して出力文を生成する。
異なる手法が異なる畳み込みニューラルネットワークアーキテクチャを使用しており、私たちの知る限り、視覚情報を抽出するための異なる畳み込みニューラルネットワークアーキテクチャの相対的有効性を比較する体系的な研究は存在しない。
本研究では,ニューラル画像キャプション生成モデル(nic)とソフトアテンションフレームワーク(soft-attention framework)の2つの一般的な画像キャプション生成フレームワークを用いて,17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies [1.5990720051907859]
本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。
RNPは、部分階層学習問題に対処する最初の神経生成モデルである。
以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
論文 参考訳(メタデータ) (2022-06-16T22:02:06Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Learning a Vocabulary of Visual Concepts and Operators using
Deep Neural Networks [0.0]
我々は、MNIST画像を用いて訓練されたモデルの学習された特徴マップを分析し、より説明可能な予測を行う。
MNIST画像を用いて学習した変分オートエンコーダから視覚概念を生成する。
再建損失(平均2乗誤差)を初期値120から60に減らすことができた。
論文 参考訳(メタデータ) (2021-09-01T16:34:57Z) - A Comparison for Anti-noise Robustness of Deep Learning Classification
Methods on a Tiny Object Image Dataset: from Convolutional Neural Network to
Visual Transformer and Performer [27.023667473278266]
まず,ディープラーニングにおける畳み込みニューラルネットワークとビジュアルトランスフォーマーの開発について概説する。
次に、畳み込みニューラルネットワークとビジュアルトランスフォーマーの様々なモデルを用いて、小さなオブジェクトの画像データセット上で一連の実験を行う。
小型物体の分類における問題点を論じ, 今後, 小型物体の分類を展望する。
論文 参考訳(メタデータ) (2021-06-03T15:28:17Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。