論文の概要: Geometry-Entangled Visual Semantic Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2109.14137v1
- Date: Wed, 29 Sep 2021 01:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:51:07.850890
- Title: Geometry-Entangled Visual Semantic Transformer for Image Captioning
- Title(参考訳): 画像キャプションのための幾何エンタングル型ビジュアルセマンティックトランス
- Authors: Ling Cheng, Wei Wei, Feida Zhu, Yong Liu, Chunyan Miao
- Abstract要約: 本稿では,新しいGeometry-Entangled Visual Semantic Transformer (GEVST) ネットワークを導入し,ビジュアル・セマンティック・フュージョンとGeometry-Aid attention refinementの相補的な利点を実現する。
視覚的および意味的な幾何学的特徴は、FusionモジュールとSelf-Attentionモジュールで、より注意を向けるために使用される。
- 参考スコア(独自算出の注目度): 39.242033631445146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements of image captioning have featured Visual-Semantic Fusion
or Geometry-Aid attention refinement. However, those fusion-based models, they
are still criticized for the lack of geometry information for inter and intra
attention refinement. On the other side, models based on Geometry-Aid attention
still suffer from the modality gap between visual and semantic information. In
this paper, we introduce a novel Geometry-Entangled Visual Semantic Transformer
(GEVST) network to realize the complementary advantages of Visual-Semantic
Fusion and Geometry-Aid attention refinement. Concretely, a Dense-Cap model
proposes some dense captions with corresponding geometry information at first.
Then, to empower GEVST with the ability to bridge the modality gap among visual
and semantic information, we build four parallel transformer encoders VV(Pure
Visual), VS(Semantic fused to Visual), SV(Visual fused to Semantic), SS(Pure
Semantic) for final caption generation. Both visual and semantic geometry
features are used in the Fusion module and also the Self-Attention module for
better attention measurement. To validate our model, we conduct extensive
experiments on the MS-COCO dataset, the experimental results show that our
GEVST model can obtain promising performance gains.
- Abstract(参考訳): 画像キャプションの最近の進歩は、視覚と視覚の融合や、幾何学的な注意の洗練が特徴である。
しかし、これらの融合モデルでは、相互および注意の細分化のための幾何学的情報の欠如が依然として批判されている。
一方、幾何学的注意に基づくモデルでは、視覚的情報と意味的情報の間にモダリティのギャップがある。
本稿では,ビジュアル・セマンティック・フュージョンとジオメトリ・エイド・アテンション・リファインメントの相補的利点を実現するために,GEVST(Geometry-Entangled Visual Semantic Transformer)ネットワークを提案する。
具体的には、Dense-Capモデルが最初に対応する幾何情報を持つ高密度キャプションを提案する。
そして、視覚情報と意味情報の間のモダリティギャップを埋める能力でGEVSTを強化するために、4つの並列トランスフォーマーエンコーダVV(Pure Visual)、VS(Semantic Fused Visual)、SV(Visual fused Semantic)、SS(Pure Semantic)を最終キャプション生成のために構築する。
視覚的および意味的な幾何学的特徴は、FusionモジュールとSelf-Attentionモジュールで、より注意を向けるために使用される。
本モデルの有効性を検証するため,MS-COCOデータセット上で広範囲な実験を行い,実験結果から,GEVSTモデルが有望な性能向上が得られることが示された。
関連論文リスト
- Formula-Supervised Visual-Geometric Pre-training [23.060257369945013]
FSVGP(Fulall-Supervised Visual-Geometric Pre-training)を導入する。
FSVGPは、数式から整列合成画像と点雲を自動的に生成する新しい合成事前学習法である。
実験の結果、FSVGPは6つのタスクでVisualAtomやPC-FractalDBよりも効果的に事前トレーニングできることがわかった。
論文 参考訳(メタデータ) (2024-09-20T14:24:52Z) - Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps [39.00415825387414]
そこで本研究では, 識別的特徴を3次元的理解で補う意味対応推定手法を提案する。
より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。
本研究では,SPair-71kデータセットを用いて,複数のオブジェクトカテゴリにまたがる対称なビューと繰り返し部分の区別が可能であることを実証した。
論文 参考訳(メタデータ) (2023-12-20T17:35:24Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation [91.15865862160088]
本稿では,異なるビュー間の幾何対応性を検討するための幾何フローネットワーク (GFNet) を提案する。
具体的には、異なる視点にまたがって補完情報を双方向に整列し、伝播する新しい幾何フローモジュール(GFM)を考案する。
論文 参考訳(メタデータ) (2022-07-06T11:48:08Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。