論文の概要: AIC-AB NET: A Neural Network for Image Captioning with Spatial Attention
and Text Attributes
- arxiv url: http://arxiv.org/abs/2307.07370v1
- Date: Fri, 14 Jul 2023 14:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:42:09.219058
- Title: AIC-AB NET: A Neural Network for Image Captioning with Spatial Attention
and Text Attributes
- Title(参考訳): AIC-AB NET:空間的注意とテキスト属性による画像キャプションのためのニューラルネットワーク
- Authors: Guoyun Tu, Ying Liu, Vladimir Vlassov
- Abstract要約: AIC-ABNETは,情報共有型アテンションベースネットワークである。
キャプション生成では、適応的な空間的注意がどの画像領域が最も画像を表すかを決定する。
テキスト属性情報は、画像認識と不確実性を低減するためにデコーダに同期的に入力される。
- 参考スコア(独自算出の注目度): 3.6307230108057387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image captioning is a significant field across computer vision and natural
language processing. We propose and present AIC-AB NET, a novel
Attribute-Information-Combined Attention-Based Network that combines spatial
attention architecture and text attributes in an encoder-decoder. For caption
generation, adaptive spatial attention determines which image region best
represents the image and whether to attend to the visual features or the visual
sentinel. Text attribute information is synchronously fed into the decoder to
help image recognition and reduce uncertainty. We have tested and evaluated our
AICAB NET on the MS COCO dataset and a new proposed Fashion dataset. The
Fashion dataset is employed as a benchmark of single-object images. The results
show the superior performance of the proposed model compared to the
state-of-the-art baseline and ablated models on both the images from MSCOCO and
our single-object images. Our AIC-AB NET outperforms the baseline adaptive
attention network by 0.017 (CIDEr score) on the MS COCO dataset and 0.095
(CIDEr score) on the Fashion dataset.
- Abstract(参考訳): 画像キャプションはコンピュータビジョンと自然言語処理において重要な分野である。
エンコーダデコーダにおける空間的注意アーキテクチャとテキスト属性を組み合わせた,新たな属性情報結合型注意型ネットワーク aic-ab net の提案と提案を行う。
キャプション生成において、適応的空間注意は、画像の最も表現のよい画像領域と、視覚特徴や視覚センチネルに出席するか否かを決定する。
テキスト属性情報はデコーダに同期して入力され、画像認識と不確実性を低減する。
我々は、MS COCOデータセットと新しいFashionデータセットを用いて、AICAB NETを試験、評価した。
Fashionデータセットは、単一オブジェクトイメージのベンチマークとして使用される。
その結果,MSCOCO画像と単対象画像の両方において,最先端のベースラインと短縮モデルと比較して,提案モデルの方が優れた性能を示した。
aic-abネットは,ms cocoデータセットでは0.017(サイダースコア),ファッションデータセットでは0.095(サイダースコア)でベースライン適応アテンションネットワークを上回っている。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Attentions Help CNNs See Better: Attention-based Hybrid Image Quality
Assessment Network [20.835800149919145]
画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を定量化することを目的としている。
GAN(Generative Adversarial Network)によって生成された歪み画像を、一見現実的なテクスチャで評価する際の性能低下がある。
本稿では,AHIQ(Hybrid Image Quality Assessment Network)を提案する。
論文 参考訳(メタデータ) (2022-04-22T03:59:18Z) - Visual Feature Encoding for GNNs on Road Networks [14.274582421372308]
視覚バックボーンネットワークとグラフニューラルネットワークを組み合わせたアーキテクチャを提案する。
衛星画像の符号化により,オープンストリートマップ道路網上で道路型分類タスクを行う。
アーキテクチャによりさらに微調整が可能となり,事前学習により伝達学習のアプローチが評価される。
論文 参考訳(メタデータ) (2022-03-02T15:37:50Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。