論文の概要: AutoCaption: Image Captioning with Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2012.09742v1
- Date: Wed, 16 Dec 2020 18:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 09:22:29.386420
- Title: AutoCaption: Image Captioning with Neural Architecture Search
- Title(参考訳): autocaption: ニューラルネットワーク検索による画像キャプション
- Authors: Xinxin Zhu and Weining Wang and Longteng Guo and Jing Liu
- Abstract要約: 画像キャプションのデコーダモジュールをよりよく設計するためのAutoCaptionメソッドを紹介します。
MSCOCOデータセットの実験は、当社のAutoCaptionモデルが従来のハンドデザイン方法よりも優れたパフォーマンスを達成できることを示しています。
- 参考スコア(独自算出の注目度): 12.82904576420261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning transforms complex visual information into abstract natural
language for representation, which can help computers understanding the world
quickly. However, due to the complexity of the real environment, it needs to
identify key objects and realize their connections, and further generate
natural language. The whole process involves a visual understanding module and
a language generation module, which brings more challenges to the design of
deep neural networks than other tasks. Neural Architecture Search (NAS) has
shown its important role in a variety of image recognition tasks. Besides, RNN
plays an essential role in the image captioning task. We introduce a
AutoCaption method to better design the decoder module of the image captioning
where we use the NAS to design the decoder module called AutoRNN automatically.
We use the reinforcement learning method based on shared parameters for
automatic design the AutoRNN efficiently. The search space of the AutoCaption
includes connections between the layers and the operations in layers both, and
it can make AutoRNN express more architectures. In particular, RNN is
equivalent to a subset of our search space. Experiments on the MSCOCO datasets
show that our AutoCaption model can achieve better performance than traditional
hand-design methods. Our AutoCaption obtains the best published CIDEr
performance of 135.8% on COCO Karpathy test split. When further using ensemble
technology, CIDEr is boosted up to 139.5%.
- Abstract(参考訳): 画像キャプションは複雑な視覚情報を抽象自然言語に変換し、コンピュータが世界を理解するのに役立ちます。
しかし、実際の環境の複雑さのため、キーオブジェクトを識別し、それらの接続を実現し、さらに自然言語を生成する必要がある。
プロセス全体は、視覚的理解モジュールと言語生成モジュールを含んでおり、他のタスクよりもディープニューラルネットワークの設計に多くの課題をもたらす。
neural architecture search (nas) は様々な画像認識タスクにおいて重要な役割を担っている。
さらに、RNNは画像キャプションタスクにおいて重要な役割を果たす。
画像キャプションのデコーダモジュールを設計するためにAutoCaptionメソッドを導入し、NASを使用してAutoRNNと呼ばれるデコーダモジュールを自動設計する。
本稿では,共有パラメータに基づく強化学習手法を用いてAutoRNNの自動設計を行う。
AutoCaptionの検索スペースには、レイヤとレイヤ内の操作の両方の接続が含まれており、AutoRNNがより多くのアーキテクチャを表現することができる。
特に、RNNは我々の検索空間のサブセットに相当する。
MSCOCOデータセットの実験から、私たちのAutoCaptionモデルは従来の手書き設計手法よりも優れたパフォーマンスを実現できます。
我々のAutoCaptionは、COCOカルパチーテスト分割で135.8%の最高のCIDEr性能を得る。
さらにアンサンブル技術を使用すると、CIDErは139.5%まで上昇する。
関連論文リスト
- Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Image Captioning In the Transformer Age [71.06437715212911]
Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
論文 参考訳(メタデータ) (2022-04-15T08:13:39Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Full-attention based Neural Architecture Search using Context
Auto-regression [18.106878746065536]
注意ネットワークを検索するためのフルアテンションに基づくNAS手法を提案する。
ネットワークの異なる層に様々な注意操作を適用できるステージワイド検索空間を構築する。
コンテキスト自動回帰を用いた自己教師付き検索アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2021-11-13T16:07:37Z) - Self-Denoising Neural Networks for Few Shot Learning [66.38505903102373]
既存のニューラルアーキテクチャの複数の段階でノイズを追加すると同時に、この付加ノイズに対して堅牢であるように学習する新しいトレーニングスキームを提案する。
このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代の畳み込みニューラルネットワークに容易に適用できます。
論文 参考訳(メタデータ) (2021-10-26T03:28:36Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Learning Versatile Neural Architectures by Propagating Network Codes [74.2450894473073]
アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」を提案する。
ncpはネットワークコードから学習するが、オリジナルデータではないため、データセット間で効率的にアーキテクチャを更新することができる。
論文 参考訳(メタデータ) (2021-03-24T15:20:38Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。