論文の概要: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.16295v1
- Date: Thu, 25 May 2023 17:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:23:20.580413
- Title: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- Title(参考訳): HAAV:画像キャプションのための拡張ビューの階層的集約
- Authors: Chia-Wen Kuo and Zsolt Kira
- Abstract要約: 本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
- 参考スコア(独自算出の注目度): 25.728621355173626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A great deal of progress has been made in image captioning, driven by
research into how to encode the image using pre-trained models. This includes
visual encodings (e.g. image grid features or detected objects) and more
recently textual encodings (e.g. image tags or text descriptions of image
regions). As more advanced encodings are available and incorporated, it is
natural to ask: how to efficiently and effectively leverage the heterogeneous
set of encodings? In this paper, we propose to regard the encodings as
augmented views of the input image. The image captioning model encodes each
view independently with a shared encoder efficiently, and a contrastive loss is
incorporated across the encoded views in a novel way to improve their
representation quality and the model's data efficiency. Our proposed
hierarchical decoder then adaptively weighs the encoded views according to
their effectiveness for caption generation by first aggregating within each
view at the token level, and then across views at the view level. We
demonstrate significant performance improvements of +5.6% CIDEr on MS-COCO and
+12.9% CIDEr on Flickr30k compared to state of the arts, and conduct rigorous
analyses to demonstrate the importance of each part of our design.
- Abstract(参考訳): 事前訓練されたモデルを用いて画像をエンコードする方法の研究によって、画像キャプションが大幅に進歩した。
これには視覚的エンコーディング(画像グリッド機能や検出されたオブジェクトなど)や、より最近のテキストエンコーディング(画像タグや画像領域のテキスト記述など)が含まれる。
より高度なエンコーディングが利用可能で、組み込まれているため、いかに効率良く効果的にエンコーディングのセットを活用するかという質問は自然である。
本稿では,エンコーディングを入力画像の拡張ビューとして捉えることを提案する。
画像キャプションモデルは、共有エンコーダと独立して各ビューを符号化し、その表示品質とモデルのデータ効率を向上する新規な方法で、符号化されたビューにコントラスト損失を組み込む。
提案する階層デコーダは,まずトークンレベルで各ビュー内を集約し,次にビューレベルでのビューを横断することにより,キャプション生成の有効性に応じて,符号化されたビューを適応的に評価する。
ms-cocoで+5.6%、flickr30kで+12.9%、state of the artsで+5.6%、そして厳密な分析を行い、デザインの各部分の重要性を実証した。
関連論文リスト
- Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation [1.2183405753834562]
Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。
また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。
提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
論文 参考訳(メタデータ) (2021-02-22T18:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。