論文の概要: Towards Local Visual Modeling for Image Captioning
- arxiv url: http://arxiv.org/abs/2302.06098v1
- Date: Mon, 13 Feb 2023 04:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:33:16.037819
- Title: Towards Local Visual Modeling for Image Captioning
- Title(参考訳): 画像キャプションのための局所視覚モデリングに向けて
- Authors: Yiwei Ma, Jiayi Ji, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji
- Abstract要約: そこで我々はLSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。
LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。
LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。
- 参考スコア(独自算出の注目度): 87.02744388237045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the local visual modeling with grid features for
image captioning, which is critical for generating accurate and detailed
captions. To achieve this target, we propose a Locality-Sensitive Transformer
Network (LSTNet) with two novel designs, namely Locality-Sensitive Attention
(LSA) and Locality-Sensitive Fusion (LSF). LSA is deployed for the intra-layer
interaction in Transformer via modeling the relationship between each grid and
its neighbors. It reduces the difficulty of local object recognition during
captioning. LSF is used for inter-layer information fusion, which aggregates
the information of different encoder layers for cross-layer semantical
complementarity. With these two novel designs, the proposed LSTNet can model
the local visual information of grid features to improve the captioning
quality. To validate LSTNet, we conduct extensive experiments on the
competitive MS-COCO benchmark. The experimental results show that LSTNet is not
only capable of local visual modeling, but also outperforms a bunch of
state-of-the-art captioning models on offline and online testings, i.e., 134.8
CIDEr and 136.3 CIDEr, respectively. Besides, the generalization of LSTNet is
also verified on the Flickr8k and Flickr30k datasets
- Abstract(参考訳): 本稿では,画像キャプションのためのグリッド特徴を用いた局所的な視覚モデルについて検討する。
そこで我々は,LSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。
LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。
キャプション中の局所的物体認識の困難さを低減させる。
LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。
これら2つの新しい設計により、LSTNetはグリッド特徴の局所的な視覚情報をモデル化し、キャプションの品質を向上させることができる。
LSTNetを検証するため,競争力のあるMS-COCOベンチマークについて広範な実験を行った。
実験の結果、LSTNetは局所的なビジュアルモデリングだけでなく、オフラインおよびオンラインテストにおいて、それぞれ134.8 CIDErと136.3 CIDErといった最先端のキャプションモデルよりも優れていた。
さらに、LSTNetの一般化はFlickr8kとFlickr30kデータセットでも検証されている。
関連論文リスト
- Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation [5.125530969984795]
本稿では,LadleNetと呼ばれるU-netに基づく画像翻訳アルゴリズムを提案する。
LadleNet+は、LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換える。
従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。
論文 参考訳(メタデータ) (2023-08-12T16:14:44Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Generating Descriptions for Sequential Images with Local-Object
Attention and Global Semantic Context Modelling [5.362051433497476]
本稿では,局所オブジェクトアテンション機構を持つシーケンシャル画像の記述を生成するために,エンドツーエンドのCNN-LSTMモデルを提案する。
シーケンシャルな画像間の依存関係を学習する多層パーセプトロンを用いて,グローバルな意味コンテキストをキャプチャする。
並列LSTMネットワークを用いてシーケンス記述を復号する。
論文 参考訳(メタデータ) (2020-12-02T16:07:32Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z) - EPNet: Enhancing Point Features with Image Semantics for 3D Object
Detection [60.097873683615695]
我々は,複数のセンサの活用を含む,3次元検出タスクにおける2つの重要な課題に対処することを目指している。
本稿では,画像アノテーションを使わずに,意味的な画像特徴をポイントワイズで拡張する新たな融合モジュールを提案する。
これら2つのコンポーネントを統合するために,EPNetというエンドツーエンドで学習可能なフレームワークを設計する。
論文 参考訳(メタデータ) (2020-07-17T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。