論文の概要: Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning
- arxiv url: http://arxiv.org/abs/2302.04676v1
- Date: Wed, 8 Feb 2023 09:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:35:01.477486
- Title: Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning
- Title(参考訳): 画像キャプションのためのスタック型クロスモーダル特徴統合アテンションネットワーク
- Authors: Mozhgan Pourkeshavarz, Shahabedin Nabavi, Mohsen Ebrahimi Moghaddam,
Mehrnoush Shamsfard
- Abstract要約: 本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
- 参考スコア(独自算出の注目度): 1.4337588659482516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the attention-enriched encoder-decoder framework has aroused great
interest in image captioning due to its overwhelming progress. Many visual
attention models directly leverage meaningful regions to generate image
descriptions. However, seeking a direct transition from visual space to text is
not enough to generate fine-grained captions. This paper exploits a
feature-compounding approach to bring together high-level semantic concepts and
visual information regarding the contextual environment fully end-to-end. Thus,
we propose a stacked cross-modal feature consolidation (SCFC) attention network
for image captioning in which we simultaneously consolidate cross-modal
features through a novel compounding function in a multi-step reasoning
fashion. Besides, we jointly employ spatial information and context-aware
attributes (CAA) as the principal components in our proposed compounding
function, where our CAA provides a concise context-sensitive semantic
representation. To make better use of consolidated features potential, we
further propose an SCFC-LSTM as the caption generator, which can leverage
discriminative semantic information through the caption generation process. The
experimental results indicate that our proposed SCFC can outperform various
state-of-the-art image captioning benchmarks in terms of popular metrics on the
MSCOCO and Flickr30K datasets.
- Abstract(参考訳): 近年,注目度の高いエンコーダ・デコーダ・フレームワークが画像キャプションへの関心を高めている。
多くの視覚的注意モデルは、意味のある領域を直接利用して画像記述を生成する。
しかし、視覚空間からテキストへの直接遷移を求めることは、細かなキャプションを生成するのに十分ではない。
本稿では,コンテキスト環境に関する高レベル意味概念と視覚情報を完全エンドツーエンドに結合する,機能説明手法を利用する。
そこで本研究では,マルチステップ推論方式で,新しい複合化機能により同時にクロスモーダル特徴の統合を行う画像キャプションのためのスタック型クロスモーダル特徴統合(scfc)注目ネットワークを提案する。
さらに,提案する複合化関数において,空間情報と文脈認識属性(caa)を主成分として,caaが簡潔な文脈に敏感な意味表現を提供する。
さらに,統合機能の利用可能性を高めるために,キャプション生成プロセスを通じて識別的意味情報を活用できるキャプション生成装置としてscfc-lstmを提案する。
実験結果から,提案したSCFCは,MSCOCOおよびFlickr30Kデータセットの一般的な指標から,様々な最先端画像キャプションベンチマークより優れていることが示された。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。
抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。
次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文 参考訳(メタデータ) (2024-07-16T05:26:12Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - MRRC: Multiple Role Representation Crossover Interpretation for Image
Captioning With R-CNN Feature Distribution Composition (FDC) [9.89901717499058]
研究はコンテキストの組み合わせのための新しい概念を提供する。
オブジェクト、アクティビティ、イベントの等価性として視覚的特徴を扱う多くのアプリケーションに影響を与えるだろう。
論文 参考訳(メタデータ) (2020-02-15T19:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。