論文の概要: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.16295v1
- Date: Thu, 25 May 2023 17:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:23:20.580413
- Title: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- Title(参考訳): HAAV:画像キャプションのための拡張ビューの階層的集約
- Authors: Chia-Wen Kuo and Zsolt Kira
- Abstract要約: 本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
- 参考スコア(独自算出の注目度): 25.728621355173626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A great deal of progress has been made in image captioning, driven by
research into how to encode the image using pre-trained models. This includes
visual encodings (e.g. image grid features or detected objects) and more
recently textual encodings (e.g. image tags or text descriptions of image
regions). As more advanced encodings are available and incorporated, it is
natural to ask: how to efficiently and effectively leverage the heterogeneous
set of encodings? In this paper, we propose to regard the encodings as
augmented views of the input image. The image captioning model encodes each
view independently with a shared encoder efficiently, and a contrastive loss is
incorporated across the encoded views in a novel way to improve their
representation quality and the model's data efficiency. Our proposed
hierarchical decoder then adaptively weighs the encoded views according to
their effectiveness for caption generation by first aggregating within each
view at the token level, and then across views at the view level. We
demonstrate significant performance improvements of +5.6% CIDEr on MS-COCO and
+12.9% CIDEr on Flickr30k compared to state of the arts, and conduct rigorous
analyses to demonstrate the importance of each part of our design.
- Abstract(参考訳): 事前訓練されたモデルを用いて画像をエンコードする方法の研究によって、画像キャプションが大幅に進歩した。
これには視覚的エンコーディング(画像グリッド機能や検出されたオブジェクトなど)や、より最近のテキストエンコーディング(画像タグや画像領域のテキスト記述など)が含まれる。
より高度なエンコーディングが利用可能で、組み込まれているため、いかに効率良く効果的にエンコーディングのセットを活用するかという質問は自然である。
本稿では,エンコーディングを入力画像の拡張ビューとして捉えることを提案する。
画像キャプションモデルは、共有エンコーダと独立して各ビューを符号化し、その表示品質とモデルのデータ効率を向上する新規な方法で、符号化されたビューにコントラスト損失を組み込む。
提案する階層デコーダは,まずトークンレベルで各ビュー内を集約し,次にビューレベルでのビューを横断することにより,キャプション生成の有効性に応じて,符号化されたビューを適応的に評価する。
ms-cocoで+5.6%、flickr30kで+12.9%、state of the artsで+5.6%、そして厳密な分析を行い、デザインの各部分の重要性を実証した。
関連論文リスト
- Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [63.968176508846426]
テキスト認識のためのモデル事前学習手法であるMaskOCRを提案する。
我々のアプローチはエンコーダとデコーダの両方を逐次的に事前訓練する。
実験により,提案したMaskOCR手法はベンチマークデータセットにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation [1.2183405753834562]
Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。
また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。
提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
論文 参考訳(メタデータ) (2021-02-22T18:15:39Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。