論文の概要: Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning
- arxiv url: http://arxiv.org/abs/2110.00335v1
- Date: Fri, 1 Oct 2021 11:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:35:01.857723
- Title: Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning
- Title(参考訳): 位置認識型LSTMを用いた画像キャプション用幾何学的アテンション変換器
- Authors: Chi Wang, Yulin Shen, Luping Ji
- Abstract要約: 本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
- 参考スコア(独自算出の注目度): 8.944233327731245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer structures have been widely applied in image
captioning with impressive performance. For good captioning results, the
geometry and position relations of different visual objects are often thought
of as crucial information. Aiming to further promote image captioning by
transformers, this paper proposes an improved Geometry Attention Transformer
(GAT) model. In order to further leverage geometric information, two novel
geometry-aware architectures are designed respectively for the encoder and
decoder in our GAT. Besides, this model includes the two work modules: 1) a
geometry gate-controlled self-attention refiner, for explicitly incorporating
relative spatial information into image region representations in encoding
steps, and 2) a group of position-LSTMs, for precisely informing the decoder of
relative word position in generating caption texts. The experiment comparisons
on the datasets MS COCO and Flickr30K show that our GAT is efficient, and it
could often outperform current state-of-the-art image captioning models.
- Abstract(参考訳): 近年、トランスフォーマー構造は印象的な性能を持つ画像キャプションに広く応用されている。
良好なキャプション結果のために、異なる視覚物体の形状と位置関係は、しばしば重要な情報と見なされる。
本稿では,変換器による画像キャプションのさらなる促進を目的として,GAT(Geometry Attention Transformer)モデルを提案する。
GATにおけるエンコーダとデコーダのために,幾何情報をさらに活用するために2つの新しい幾何対応アーキテクチャを設計する。
このモデルには2つの作業モジュールが含まれている。
1 相対空間情報をエンコードステップにおける画像領域表現に明示的に組み込む幾何学ゲート制御自己注意精錬器
2)字幕テキストを生成する際に、相対語の位置のデコーダを正確に通知する位置LSTMのグループ。
実験の結果、MS COCOとFlickr30Kのデータセットと比較すると、私たちのGATは効率的であり、しばしば最先端の画像キャプションモデルよりも優れています。
関連論文リスト
- GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Track Targets by Dense Spatio-Temporal Position Encoding [27.06820571703848]
変換器を用いた動画における目標追跡のための目標位置を符号化する新しいパラダイムを提案する。
提案した符号化位置は、外観マッチングを超えたフレーム間のターゲットを関連付ける位置情報を提供する。
提案する特徴ベクトルの代わりに2次元CNN機能に符号化を適用し,位置情報の喪失を回避する。
論文 参考訳(メタデータ) (2022-10-17T22:04:39Z) - PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution [0.42970700836450487]
本稿では,2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
我々は,新しいコンテンツ認識近傍収集手法を用いて,関連性のある特徴を明示的に選択する。
これらの特徴を、位置インフォームされた時間的畳み込み層で集約し、ロバストな近傍強調符号表現を生成する。
バニラトランスフォーマーモデルと比較して、我々のモデルは3つの大規模手話ベンチマークで一貫して性能が向上する。
論文 参考訳(メタデータ) (2021-07-27T05:01:27Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。