論文の概要: Hierarchical Memory Decoding for Video Captioning
- arxiv url: http://arxiv.org/abs/2002.11886v1
- Date: Thu, 27 Feb 2020 02:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:50:39.906010
- Title: Hierarchical Memory Decoding for Video Captioning
- Title(参考訳): ビデオキャプションのための階層的メモリデコード
- Authors: Aming Wu, Yahong Han
- Abstract要約: メモリネットワーク(MemNet)は、長期情報を保存する利点がある。
MemNetはビデオキャプションにあまり使われていない。
本稿では,ビデオキャプションのための新しいメモリデコーダを提案する。
- 参考スコア(独自算出の注目度): 43.51506421744577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances of video captioning often employ a recurrent neural network
(RNN) as the decoder. However, RNN is prone to diluting long-term information.
Recent works have demonstrated memory network (MemNet) has the advantage of
storing long-term information. However, as the decoder, it has not been well
exploited for video captioning. The reason partially comes from the difficulty
of sequence decoding with MemNet. Instead of the common practice, i.e.,
sequence decoding with RNN, in this paper, we devise a novel memory decoder for
video captioning. Concretely, after obtaining representation of each frame
through a pre-trained network, we first fuse the visual and lexical
information. Then, at each time step, we construct a multi-layer MemNet-based
decoder, i.e., in each layer, we employ a memory set to store previous
information and an attention mechanism to select the information related to the
current input. Thus, this decoder avoids the dilution of long-term information.
And the multi-layer architecture is helpful for capturing dependencies between
frames and word sequences. Experimental results show that even without the
encoding network, our decoder still could obtain competitive performance and
outperform the performance of RNN decoder. Furthermore, compared with one-layer
RNN decoder, our decoder has fewer parameters.
- Abstract(参考訳): ビデオキャプションの最近の進歩は、しばしばリカレントニューラルネットワーク(RNN)をデコーダとして採用している。
しかし、RNNは長期的な情報を希薄化する傾向がある。
最近の研究は、メモリネットワーク(MemNet)が長期情報を保存する利点を実証している。
しかし、デコーダとして、ビデオキャプションにはあまり活用されていない。
その理由の一部は、MemNetによるシーケンスデコーディングの難しさにある。
本稿では,ビデオキャプションのための新しいメモリデコーダを考案する。
具体的には、事前学習したネットワークを介して各フレームの表現を得た後、まず視覚情報と語彙情報を融合する。
そして各ステップで,マルチレイヤのMemNetベースのデコーダを構築する。すなわち,各レイヤでは,前の情報を格納するためのメモリセットと,現在の入力に関する情報を選択するためのアテンション機構を用いる。
したがって、このデコーダは長期的な情報の希釈を避けることができる。
そして、多層アーキテクチャは、フレームとワードシーケンス間の依存関係をキャプチャするのに役立ちます。
実験の結果,符号化ネットワークがなくても,デコーダは競争性能が得られ,RNNデコーダの性能より優れていた。
さらに、1層RNNデコーダと比較して、デコーダのパラメータは少ない。
関連論文リスト
- Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural
Networks [7.668812831777923]
アルゴリズムの観点から,エンコーダ・デコーダに基づくネットワークアーキテクチャについて検討する。
画像分割には2相ポッツモデルを用いる。
離散的なPottsMGNetはエンコーダ-デコーダベースネットワークと等価であることを示す。
論文 参考訳(メタデータ) (2023-07-18T07:48:48Z) - Training Invertible Neural Networks as Autoencoders [3.867363075280544]
Invertible Neural Networks (INNs) を INN (variational) autoencoders と呼ぶ (variational) autoencoders として訓練する方法を提案する。
MNIST, CIFAR, CelebAを用いた実験により, 低ボトルネックサイズでは, INNオートエンコーダは古典的オートエンコーダと同様の結果が得られた。
論文 参考訳(メタデータ) (2023-03-20T16:24:06Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - KRNet: Towards Efficient Knowledge Replay [50.315451023983805]
知識再生技術は、継続的な学習や連続的なドメイン適応といった多くのタスクで広く使われている。
本稿では,任意のサンプル識別番号を直接対応するダタムにマッピングする,新規で効率的な知識記録ネットワーク(KRNet)を提案する。
我々のKRNetは、潜在コードに対するストレージコストを著しく削減し、エンコーダのサブネットワークを使わずにトレーニングできる。
論文 参考訳(メタデータ) (2022-05-23T08:34:17Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z) - Analysis of Convolutional Decoder for Image Caption Generation [1.2183405753834562]
画像キャプション生成などのシーケンスモデリングタスクのために畳み込みニューラルネットワークが提案されている。
リカレントニューラルネットワークベースのデコーダとは異なり、画像キャプション用の畳み込みデコーダは一般的にネットワーク深度の増加の恩恵を受けない。
コンボリューショナルデコーダは,最大15語までの文を含む小長の文を用いて訓練した場合のみ,リカレントデコーダに匹敵する性能を示す。
論文 参考訳(メタデータ) (2021-03-08T17:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。