論文の概要: Dual-Level Collaborative Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2101.06462v1
- Date: Sat, 16 Jan 2021 15:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 04:31:40.963640
- Title: Dual-Level Collaborative Transformer for Image Captioning
- Title(参考訳): イメージキャプション用デュアルレベル協調変換器
- Authors: Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Yongjian Wu, Feiyue
Huang, Chia-Wen Lin, Rongrong Ji
- Abstract要約: 2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 126.59298716978577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Descriptive region features extracted by object detection networks have
played an important role in the recent advancements of image captioning.
However, they are still criticized for the lack of contextual information and
fine-grained details, which in contrast are the merits of traditional grid
features. In this paper, we introduce a novel Dual-Level Collaborative
Transformer (DLCT) network to realize the complementary advantages of the two
features. Concretely, in DLCT, these two features are first processed by a
novelDual-way Self Attenion (DWSA) to mine their intrinsic properties, where a
Comprehensive Relation Attention component is also introduced to embed the
geometric information. In addition, we propose a Locality-Constrained Cross
Attention module to address the semantic noises caused by the direct fusion of
these two features, where a geometric alignment graph is constructed to
accurately align and reinforce region and grid features. To validate our model,
we conduct extensive experiments on the highly competitive MS-COCO dataset, and
achieve new state-of-the-art performance on both local and online test sets,
i.e., 133.8% CIDEr-D on Karpathy split and 135.4% CIDEr on the official split.
Code is available at https://github.com/luo3300612/image-captioning-DLCT.
- Abstract(参考訳): 物体検出ネットワークによって抽出された記述領域の特徴は,近年の画像キャプションの発展に重要な役割を果たしている。
しかし、伝統的なグリッド機能の利点とは対照的に、文脈情報や細部の詳細の欠如が批判されている。
本稿では,2つの特徴の相補的利点を実現するために,新しいDual-Level Collaborative Transformer(DLCT)ネットワークを提案する。
具体的には、DLCTでは、これらの2つの特徴を最初にDWSA(Dual-way Self Attenion)によって処理し、その固有の特性をマイニングする。
さらに,これら2つの特徴の直接融合による意味的ノイズに対処するために,局所性に制約されたクロスアテンションモジュールを提案する。
このモデルを検証するために,高競争力のms-cocoデータセットを広範囲に実験し,カルパシースプリットでは133.8%,オフィシャルスプリットでは135.4%という,ローカルおよびオンライン両方のテストセットで新たな最先端性能を実現する。
コードはhttps://github.com/luo3300612/image-captioning-DLCTで公開されている。
関連論文リスト
- Towards Local Visual Modeling for Image Captioning [87.02744388237045]
そこで我々はLSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。
LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。
LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。
論文 参考訳(メタデータ) (2023-02-13T04:42:00Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Siamese Attribute-missing Graph Auto-encoder [35.79233150253881]
我々は,Samese Attribute-missing Graph Auto-Encoder (SAGA)を提案する。
まず、両方のプロセスで学習したパラメータを共有するために、シアムネットワーク構造を導入することで、属性の埋め込みと構造埋め込みを絡み合わせる。
第二に, K-nearest neighbor (KNN) と構造制約強化学習機構を導入し, 欠落属性の潜伏特性の質を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:21:31Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - EPNet: Enhancing Point Features with Image Semantics for 3D Object
Detection [60.097873683615695]
我々は,複数のセンサの活用を含む,3次元検出タスクにおける2つの重要な課題に対処することを目指している。
本稿では,画像アノテーションを使わずに,意味的な画像特徴をポイントワイズで拡張する新たな融合モジュールを提案する。
これら2つのコンポーネントを統合するために,EPNetというエンドツーエンドで学習可能なフレームワークを設計する。
論文 参考訳(メタデータ) (2020-07-17T09:33:05Z) - aiTPR: Attribute Interaction-Tensor Product Representation for Image
Caption [9.89901717499058]
地域視覚的特徴は、特徴に基づく機械の生成能力を高めるが、適切な相互作用の注意力の認識は欠如している。
本研究では,情報収集に有用なAITPR(Attribute Interaction-Tensor Product Representation)を提案する。
論文 参考訳(メタデータ) (2020-01-27T00:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。