論文の概要: Neural Attention for Image Captioning: Review of Outstanding Methods
- arxiv url: http://arxiv.org/abs/2111.15015v1
- Date: Mon, 29 Nov 2021 23:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:12:46.135569
- Title: Neural Attention for Image Captioning: Review of Outstanding Methods
- Title(参考訳): 画像キャプションのためのニューラルアテンション:既存の手法のレビュー
- Authors: Zanyar Zohourianshahzadi and Jugal K. Kalita
- Abstract要約: ソフトアテンション(Soft attention)、ボトムアップアテンション(ボトムアップアテンション)、マルチヘッドアテンション(マルチヘッドアテンション)は、画像キャプションのための最先端の注意深い学習モデルで広く使われているアテンション機構の一種である。
現時点において、最良の結果はボトムアップによるマルチヘッドアテンションの変種から得られる。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image captioning is the task of automatically generating sentences that
describe an input image in the best way possible. The most successful
techniques for automatically generating image captions have recently used
attentive deep learning models. There are variations in the way deep learning
models with attention are designed. In this survey, we provide a review of
literature related to attentive deep learning models for image captioning.
Instead of offering a comprehensive review of all prior work on deep image
captioning models, we explain various types of attention mechanisms used for
the task of image captioning in deep learning models. The most successful deep
learning models used for image captioning follow the encoder-decoder
architecture, although there are differences in the way these models employ
attention mechanisms. Via analysis on performance results from different
attentive deep models for image captioning, we aim at finding the most
successful types of attention mechanisms in deep models for image captioning.
Soft attention, bottom-up attention, and multi-head attention are the types of
attention mechanism widely used in state-of-the-art attentive deep learning
models for image captioning. At the current time, the best results are achieved
from variants of multi-head attention with bottom-up attention.
- Abstract(参考訳): 画像キャプションは、入力イメージを可能な限り最善に記述する文を自動的に生成するタスクである。
画像キャプションを自動的に生成する最も成功した技術は、近年、注意深い学習モデルを用いている。
注意深いディープラーニングモデルの設計方法には、さまざまなバリエーションがある。
本研究では,画像キャプションのための注意深い深層学習モデルに関する文献のレビューを行う。
深層画像キャプションモデルに関する全ての先行研究の包括的なレビューを提供する代わりに、深層学習モデルにおける画像キャプションのタスクに使用される様々な注意メカニズムについて説明する。
画像キャプションに最も成功したディープラーニングモデルはエンコーダ・デコーダアーキテクチャに従っているが、これらのモデルでは注意機構が採用されている。
画像キャプションのための異なる注意深度モデルの性能解析により、画像キャプションのための深度モデルにおいて最も成功した注意機構を見つけることを目的とする。
ソフトアテンション(soft attention)、ボトムアップアテンション(boot-up attention)、マルチヘッドアテンション(multi-head attention)は、画像キャプションのための最先端の注意深層学習モデルで広く使われているアテンションメカニズムの一種である。
現状ではボトムアップの注意を向けたマルチヘッド・アテンションの変種から最高の結果が得られる。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。