論文の概要: X-Linear Attention Networks for Image Captioning
- arxiv url: http://arxiv.org/abs/2003.14080v1
- Date: Tue, 31 Mar 2020 10:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:26:10.373156
- Title: X-Linear Attention Networks for Image Captioning
- Title(参考訳): 画像キャプションのためのX線注意ネットワーク
- Authors: Yingwei Pan and Ting Yao and Yehao Li and Tao Mei
- Abstract要約: 視覚情報を利用したり,マルチモーダル推論を行ったりするために,バイリニアプールを完全に活用した統一型アテンションブロック-X-Linearアテンションブロックを導入する。
X-LANは、X-Linearアテンションブロックを画像エンコーダと画像キャプションモデルの文デコーダに統合し、高次のイントラモーダルインタラクションとインターモーダルインタラクションを活用する。
COCOベンチマークの実験により、我々のX-LANはCOCOカルパシーテストのスプリットで132.0%の最高のCIDEr性能を得ることができた。
- 参考スコア(独自算出の注目度): 124.48670699658649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress on fine-grained visual recognition and visual question
answering has featured Bilinear Pooling, which effectively models the 2$^{nd}$
order interactions across multi-modal inputs. Nevertheless, there has not been
evidence in support of building such interactions concurrently with attention
mechanism for image captioning. In this paper, we introduce a unified attention
block -- X-Linear attention block, that fully employs bilinear pooling to
selectively capitalize on visual information or perform multi-modal reasoning.
Technically, X-Linear attention block simultaneously exploits both the spatial
and channel-wise bilinear attention distributions to capture the 2$^{nd}$ order
interactions between the input single-modal or multi-modal features. Higher and
even infinity order feature interactions are readily modeled through stacking
multiple X-Linear attention blocks and equipping the block with Exponential
Linear Unit (ELU) in a parameter-free fashion, respectively. Furthermore, we
present X-Linear Attention Networks (dubbed as X-LAN) that novelly integrates
X-Linear attention block(s) into image encoder and sentence decoder of image
captioning model to leverage higher order intra- and inter-modal interactions.
The experiments on COCO benchmark demonstrate that our X-LAN obtains to-date
the best published CIDEr performance of 132.0% on COCO Karpathy test split.
When further endowing Transformer with X-Linear attention blocks, CIDEr is
boosted up to 132.8%. Source code is available at
\url{https://github.com/Panda-Peter/image-captioning}.
- Abstract(参考訳): きめ細かい視覚認識と視覚的質問応答に関する最近の進歩は、マルチモーダル入力間の2$^{nd}$の相互作用を効果的にモデル化する双線形プーリングを特徴としている。
それでも、画像キャプションの注意機構と同時にこのようなインタラクションを構築することを支持する証拠は存在しない。
本稿では,視覚情報を利用したり,マルチモーダル推論を行ったりするために,バイリニアプールを完全に活用した統一型アテンションブロック-X-Linearアテンションブロックを提案する。
技術的には、X-Linearアテンションブロックは、空間的およびチャネル的バイ線形アテンション分布の両方を同時に利用し、入力されたシングルモーダルまたはマルチモーダル特徴間の2$^{nd}$オーダー相互作用をキャプチャする。
高次および無限次特徴相互作用は、複数のx線注意ブロックを積み重ね、そのブロックに指数線形単位(elu)をパラメータフリーで装備することで容易にモデル化される。
さらに,画像キャプションモデルの画像エンコーダと文デコーダに,X-Linear attention block(s)を新たに統合したX-Linear Attention Networks(X-LAN)を提案する。
COCOベンチマーク実験により,COCOカルパチーテストのスプリットにおいて,我々のX-LANが132.0%の最高のCIDEr性能が得られることが示された。
トランスフォーマーにX線アテンションブロックを加えると、CIDErは132.8%まで上昇する。
ソースコードは \url{https://github.com/panda-peter/image-captioning} で入手できる。
関連論文リスト
- X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios [105.16073169351299]
本稿では,点雲と多視点画像の連成分布をモデル化する新しいフレームワーク,X-DRIVEを提案する。
2つのモダリティの異なる幾何学的空間を考えると、X-DRIVE条件は対応する局所領域上の各モダリティの合成である。
X-DRIVEはテキスト、バウンディングボックス、画像、点雲を含む多レベル入力条件を通じて制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2024-11-02T03:52:12Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Towards Joint Intent Detection and Slot Filling via Higher-order
Attention [47.78365472691051]
Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。
本稿では,文脈的およびチャネル的両線的アテンション分布を利用したバイリニアアテンションブロックを提案する。
我々のアプローチは最先端のアプローチと比較して改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-18T09:50:23Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。