論文の概要: Improving Image Captioning by Leveraging Intra- and Inter-layer Global
Representation in Transformer Network
- arxiv url: http://arxiv.org/abs/2012.07061v1
- Date: Sun, 13 Dec 2020 13:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 16:46:28.139120
- Title: Improving Image Captioning by Leveraging Intra- and Inter-layer Global
Representation in Transformer Network
- Title(参考訳): トランスネットワークにおける層内および層間グローバル表現の活用による画像キャプションの改善
- Authors: Jiayi Ji, Yunpeng Luo, Xiaoshuai Sun, Fuhai Chen, Gen Luo, Yongjian
Wu, Yue Gao, Rongrong Ji
- Abstract要約: 我々は、より包括的なグローバル表現の抽出を可能にするGlobal Enhanced Transformer (termed GET)を導入する。
getはデコーダに適応して高品質なキャプションを生成する。
- 参考スコア(独自算出の注目度): 96.4761273757796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures have shown great success in image captioning,
where object regions are encoded and then attended into the vectorial
representations to guide the caption decoding. However, such vectorial
representations only contain region-level information without considering the
global information reflecting the entire image, which fails to expand the
capability of complex multi-modal reasoning in image captioning. In this paper,
we introduce a Global Enhanced Transformer (termed GET) to enable the
extraction of a more comprehensive global representation, and then adaptively
guide the decoder to generate high-quality captions. In GET, a Global Enhanced
Encoder is designed for the embedding of the global feature, and a Global
Adaptive Decoder are designed for the guidance of the caption generation. The
former models intra- and inter-layer global representation by taking advantage
of the proposed Global Enhanced Attention and a layer-wise fusion module. The
latter contains a Global Adaptive Controller that can adaptively fuse the
global information into the decoder to guide the caption generation. Extensive
experiments on MS COCO dataset demonstrate the superiority of our GET over many
state-of-the-arts.
- Abstract(参考訳): トランスフォーマティブベースのアーキテクチャは、画像キャプションにおいて大きな成功を収めており、オブジェクト領域をエンコードし、キャプションデコーディングを導くためにベクトル表現に入る。
しかし、このようなベクトル表現は、画像全体を反映したグローバル情報を考慮せずに、領域レベルの情報しか含まないため、画像キャプションにおける複雑なマルチモーダル推論の能力を拡張できない。
本稿では,より包括的なグローバル表現の抽出を可能にするGlobal Enhanced Transformer(GET)を導入し,高品質なキャプションを生成するためにデコーダを適応的に誘導する。
GETでは、グローバル機能の埋め込み用にグローバル拡張エンコーダが設計され、キャプション生成のガイダンスのためにグローバル適応デコーダが設計されている。
前者は、提案したGlobal Enhanced Attentionとレイヤワイド融合モジュールを利用して、層内および層間グローバル表現をモデル化した。
後者は、グローバル情報をデコーダに適応的に融合してキャプション生成を導くグローバル適応コントローラを含んでいる。
MS COCOデータセットの大規模な実験は、多くの最先端技術よりもGETの方が優れていることを示している。
関連論文リスト
- Zero-shot Text-guided Infinite Image Synthesis with LLM guidance [2.531998650341267]
解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。
テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T15:10:01Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z) - GRET: Global Representation Enhanced Transformer [85.58930151690336]
Transformerは、エンコーダ-デコーダフレームワークに基づいて、いくつかの自然言語生成タスクで最先端のパフォーマンスを達成した。
本稿では,トランスフォーマネットワークにおけるグローバル表現を明示的にモデル化するための,新しいグローバル表現拡張トランスフォーマ(GRET)を提案する。
論文 参考訳(メタデータ) (2020-02-24T07:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。