論文の概要: Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning
- arxiv url: http://arxiv.org/abs/2211.09460v1
- Date: Thu, 17 Nov 2022 11:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:18:57.162402
- Title: Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning
- Title(参考訳): 終端画像キャプションのためのプログレッシブツリー構造化プロトタイプネットワーク
- Authors: Pengpeng Zeng, Jinkuan Zhu, Jingkuan Song, Lianli Gao
- Abstract要約: 本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
- 参考スコア(独自算出の注目度): 74.8547752611337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies of image captioning are shifting towards a trend of a fully
end-to-end paradigm by leveraging powerful visual pre-trained models and
transformer-based generation architecture for more flexible model training and
faster inference speed. State-of-the-art approaches simply extract isolated
concepts or attributes to assist description generation. However, such
approaches do not consider the hierarchical semantic structure in the textual
domain, which leads to an unpredictable mapping between visual representations
and concept words. To this end, we propose a novel Progressive Tree-Structured
prototype Network (dubbed PTSN), which is the first attempt to narrow down the
scope of prediction words with appropriate semantics by modeling the
hierarchical textual semantics. Specifically, we design a novel embedding
method called tree-structured prototype, producing a set of hierarchical
representative embeddings which capture the hierarchical semantic structure in
textual space. To utilize such tree-structured prototypes into visual
cognition, we also propose a progressive aggregation module to exploit semantic
relationships within the image and prototypes. By applying our PTSN to the
end-to-end captioning framework, extensive experiments conducted on MSCOCO
dataset show that our method achieves a new state-of-the-art performance with
144.2% (single model) and 146.5% (ensemble of 4 models) CIDEr scores on
`Karpathy' split and 141.4% (c5) and 143.9% (c40) CIDEr scores on the official
online test server. Trained models and source code have been released at:
https://github.com/NovaMind-Z/PTSN.
- Abstract(参考訳): 画像キャプションの研究は、より柔軟なモデルトレーニングとより高速な推論速度のために、強力なビジュアル事前学習モデルとトランスフォーマーベースの生成アーキテクチャを活用することで、完全なエンドツーエンドパラダイムのトレンドにシフトしている。
最先端のアプローチは、単に独立した概念や属性を抽出して記述生成を支援する。
しかし、そのようなアプローチはテキスト領域における階層的意味構造を考慮せず、ビジュアル表現と概念語の間の予測不能なマッピングにつながる。
そこで本研究では,階層的テキスト意味論をモデル化することにより,予測語の範囲を適切な意味論で絞り込むための新しいプログレッシブツリー構造化プロトタイプネットワーク(PTSN)を提案する。
具体的には,木構造プロトタイプと呼ばれる新しい埋め込み手法を設計し,テキスト空間における階層的意味構造をキャプチャする階層的代表埋め込みのセットを作成する。
このような木構造型プロトタイプを視覚認知に活用するために,画像とプロトタイプのセマンティックな関係を利用するプログレッシブアグリゲーションモジュールを提案する。
PTSNをエンドツーエンドのキャプションフレームワークに適用することにより、MSCOCOデータセット上で行った広範な実験により、我々の手法は144.2%(シングルモデル)と146.5%(4モデルのアンサンブル)の新たな最先端性能を実現し、CIDErは「カルパシー」の分割、141.4%(c5)、143.9%(c40)のCIDErは公式オンラインテストサーバ上でのスコアを得た。
トレーニングされたモデルとソースコードは、https://github.com/NovaMind-Z/PTSNでリリースされた。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - HCSC: Hierarchical Contrastive Selective Coding [44.655310210531226]
Hierarchical Contrastive Selective Coding (HCSC)は、新しいコントラスト学習フレームワークである。
画像表現をセマンティック構造に適合させるための精巧なペア選択方式を提案する。
我々は,最先端のコントラスト法よりもHCSCの優れた性能を検証した。
論文 参考訳(メタデータ) (2022-02-01T15:04:40Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。