論文の概要: Analysis of Convolutional Decoder for Image Caption Generation
- arxiv url: http://arxiv.org/abs/2103.04914v1
- Date: Mon, 8 Mar 2021 17:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:30:34.242491
- Title: Analysis of Convolutional Decoder for Image Caption Generation
- Title(参考訳): 画像キャプション生成のための畳み込みデコーダの解析
- Authors: Sulabh Katiyar, Samir Kumar Borgohain
- Abstract要約: 画像キャプション生成などのシーケンスモデリングタスクのために畳み込みニューラルネットワークが提案されている。
リカレントニューラルネットワークベースのデコーダとは異なり、画像キャプション用の畳み込みデコーダは一般的にネットワーク深度の増加の恩恵を受けない。
コンボリューショナルデコーダは,最大15語までの文を含む小長の文を用いて訓練した場合のみ,リカレントデコーダに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently Convolutional Neural Networks have been proposed for Sequence
Modelling tasks such as Image Caption Generation. However, unlike Recurrent
Neural Networks, the performance of Convolutional Neural Networks as Decoders
for Image Caption Generation has not been extensively studied. In this work, we
analyse various aspects of Convolutional Neural Network based Decoders such as
Network complexity and depth, use of Data Augmentation, Attention mechanism,
length of sentences used during training, etc on performance of the model. We
perform experiments using Flickr8k and Flickr30k image captioning datasets and
observe that unlike Recurrent Neural Network based Decoder, Convolutional
Decoder for Image Captioning does not generally benefit from increase in
network depth, in the form of stacked Convolutional Layers, and also the use of
Data Augmentation techniques. In addition, use of Attention mechanism also
provides limited performance gains with Convolutional Decoder. Furthermore, we
observe that Convolutional Decoders show performance comparable with Recurrent
Decoders only when trained using sentences of smaller length which contain up
to 15 words but they have limitations when trained using higher sentence
lengths which suggests that Convolutional Decoders may not be able to model
long-term dependencies efficiently. In addition, the Convolutional Decoder
usually performs poorly on CIDEr evaluation metric as compared to Recurrent
Decoder.
- Abstract(参考訳): 近年,画像キャプション生成などのシーケンスモデリングタスクに対して畳み込みニューラルネットワークが提案されている。
しかし、繰り返しニューラルネットワークとは異なり、イメージキャプション生成のためのデコーダとしての畳み込みニューラルネットワークの性能は広く研究されていない。
本研究では,畳み込みニューラルネットワークを用いたデコーダについて,ネットワークの複雑さや深さ,データ拡張の利用,注意機構,トレーニング中の文長,モデルの性能など,様々な側面を分析した。
flickr8kおよびflickr30k画像キャプションデータセットを用いて実験を行い、リカレントニューラルネットワークベースのデコーダとは異なり、画像キャプションのための畳み込みデコーダは、一般にネットワーク深さの増加、重ね合わせ畳み込み層、およびデータ拡張技術の使用の恩恵を受けないことを示した。
さらに、Attentionメカニズムの使用は、Convolutional Decoderによる限られたパフォーマンス向上も提供する。
さらに,畳み込みデコーダは,最大15語までの長文を含む短い文を訓練する場合のみ,繰り返しデコーダと同等の性能を示すが,高い文長で訓練した場合に制限があることから,畳み込みデコーダが長期依存を効率的にモデル化できない可能性が示唆された。
さらに、Convolutional Decoderは通常、繰り返しデコーダと比較してCIDEr評価メトリックで不十分に機能します。
関連論文リスト
- More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural
Networks [7.668812831777923]
アルゴリズムの観点から,エンコーダ・デコーダに基づくネットワークアーキテクチャについて検討する。
画像分割には2相ポッツモデルを用いる。
離散的なPottsMGNetはエンコーダ-デコーダベースネットワークと等価であることを示す。
論文 参考訳(メタデータ) (2023-07-18T07:48:48Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Hierarchical Memory Decoding for Video Captioning [43.51506421744577]
メモリネットワーク(MemNet)は、長期情報を保存する利点がある。
MemNetはビデオキャプションにあまり使われていない。
本稿では,ビデオキャプションのための新しいメモリデコーダを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。