論文の概要: Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation
- arxiv url: http://arxiv.org/abs/2102.11237v1
- Date: Mon, 22 Feb 2021 18:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:23:59.236351
- Title: Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation
- Title(参考訳): deep stacked lstms, context word embeddeds and data augmentationを用いた画像キャプション
- Authors: Sulabh Katiyar, Samir Kumar Borgohain
- Abstract要約: Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。
また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。
提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image Captioning, or the automatic generation of descriptions for images, is
one of the core problems in Computer Vision and has seen considerable progress
using Deep Learning Techniques. We propose to use Inception-ResNet
Convolutional Neural Network as encoder to extract features from images,
Hierarchical Context based Word Embeddings for word representations and a Deep
Stacked Long Short Term Memory network as decoder, in addition to using Image
Data Augmentation to avoid over-fitting. For data Augmentation, we use
Horizontal and Vertical Flipping in addition to Perspective Transformations on
the images. We evaluate our proposed methods with two image captioning
frameworks- Encoder-Decoder and Soft Attention. Evaluation on widely used
metrics have shown that our approach leads to considerable improvement in model
performance.
- Abstract(参考訳): 画像キャプション、あるいは画像記述の自動生成は、コンピュータビジョンの核となる問題の一つであり、ディープラーニング技術を用いてかなりの進歩を遂げている。
画像のエンコーダとしてInception-ResNet Convolutional Neural Network、単語表現のための階層的コンテキストベースの単語埋め込み、デコーダとしてDeep Stacked Long Term Memory Network、オーバーフィッティングを避けるためにImage Data Augmentationを使用することを提案する。
データ拡張には、画像のパースペクティブトランスフォーメーションに加えて、水平および垂直フリップを使用します。
提案手法を,エンコーダデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価した。
広く使われているメトリクスの評価は、我々のアプローチがモデルパフォーマンスを大幅に改善することを示している。
関連論文リスト
- AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。