論文の概要: Image Captioning based on Feature Refinement and Reflective Decoding
- arxiv url: http://arxiv.org/abs/2206.07986v1
- Date: Thu, 16 Jun 2022 07:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 15:59:54.082237
- Title: Image Captioning based on Feature Refinement and Reflective Decoding
- Title(参考訳): 特徴の精細化と反射復号化に基づく画像キャプション
- Authors: Ghadah Alabduljabbar, Hafida Benhidour, Said Kerrache
- Abstract要約: 本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating a description of an image in natural language is
called image captioning. It is an active research topic that lies at the
intersection of two major fields in artificial intelligence, computer vision,
and natural language processing. Image captioning is one of the significant
challenges in image understanding since it requires not only recognizing
salient objects in the image but also their attributes and the way they
interact. The system must then generate a syntactically and semantically
correct caption that describes the image content in natural language. With the
significant progress in deep learning models and their ability to effectively
encode large sets of images and generate correct sentences, several
neural-based captioning approaches have been proposed recently, each trying to
achieve better accuracy and caption quality. This paper introduces an
encoder-decoder-based image captioning system in which the encoder extracts
spatial and global features for each region in the image using the Faster R-CNN
with ResNet-101 as a backbone. This stage is followed by a refining model,
which uses an attention-on-attention mechanism to extract the visual features
of the target image objects, then determine their interactions. The decoder
consists of an attention-based recurrent module and a reflective attention
module, which collaboratively apply attention to the visual and textual
features to enhance the decoder's ability to model long-term sequential
dependencies. Extensive experiments performed on two benchmark datasets, MSCOCO
and Flickr30K, show the effectiveness the proposed approach and the high
quality of the generated captions.
- Abstract(参考訳): 自然言語で画像の記述を自動的に生成するのは、画像キャプションと呼ばれる。
これは、人工知能、コンピュータビジョン、自然言語処理の2つの主要な分野の交差点にある活発な研究トピックである。
イメージキャプションは、画像内の健全なオブジェクトを認識するだけでなく、それらの属性や相互作用の仕方も認識する必要があるため、画像理解において重要な課題の1つである。
次にシステムは、自然言語で画像内容を記述する構文的かつ意味的に正しいキャプションを生成する必要がある。
ディープラーニングモデルの著しい進歩と、大規模な画像セットを効果的にエンコードし、正しい文を生成する能力によって、ニューラルネットワークに基づくキャプションアプローチが最近提案され、それぞれが精度とキャプション品質の向上を図っている。
本稿では,resnet-101をバックボーンとする高速r-cnnを用いて,画像内の各領域の空間的特徴と大域的特徴を抽出したエンコーダ・デコーダに基づく画像キャプションシステムを提案する。
この段階では、対象のイメージオブジェクトの視覚的特徴を抽出し、それらの相互作用を決定するために、アテンション・オン・アテンション・メカニズムを使用する精細化モデルが続く。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールで構成されており、視覚的およびテキスト的特徴に協調的に注目することで、デコーダの長期的依存関係をモデル化する能力を高める。
MSCOCOとFlickr30Kという2つのベンチマークデータセットで実施された大規模な実験は、提案手法の有効性と生成されたキャプションの高品質さを示している。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。