論文の概要: Adaptively Clustering Neighbor Elements for Image Captioning
- arxiv url: http://arxiv.org/abs/2301.01955v1
- Date: Thu, 5 Jan 2023 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:09:53.040585
- Title: Adaptively Clustering Neighbor Elements for Image Captioning
- Title(参考訳): 画像キャプションのための隣接要素の適応クラスタリング
- Authors: Zihua Wang and Xu Yang and Haiyang Xu and Hanwang Zhang and Chenliang
Li and Songfang Huang and Fei Huang and Yu Zhang
- Abstract要約: 我々は、字幕を生成するためにtextbfAda-ClustFormer (textbfACF) という新しいグローバルローカルトランスフォーマーを設計する。
ACFの各レイヤは、入力要素を適応的にクラスタリングして、ローカルコンテキストを学ぶための自己アテンション(Self-ATT)を運ぶことができる。
- 参考スコア(独自算出の注目度): 97.78947477992057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We design a novel global-local Transformer named \textbf{Ada-ClustFormer}
(\textbf{ACF}) to generate captions. We use this name since each layer of ACF
can adaptively cluster input elements to carry self-attention (Self-ATT) for
learning local context. Compared with other global-local Transformers which
carry Self-ATT in fixed-size windows, ACF can capture varying graininess, \eg,
an object may cover different numbers of grids or a phrase may contain diverse
numbers of words. To build ACF, we insert a probabilistic matrix C into the
Self-ATT layer. For an input sequence {{s}_1,...,{s}_N , C_{i,j} softly
determines whether the sub-sequence {s_i,...,s_j} should be clustered for
carrying Self-ATT. For implementation, {C}_{i,j} is calculated from the
contexts of {{s}_i,...,{s}_j}, thus ACF can exploit the input itself to decide
which local contexts should be learned. By using ACF to build the vision
encoder and language decoder, the captioning model can automatically discover
the hidden structures in both vision and language, which encourages the model
to learn a unified structural space for transferring more structural
commonalities. The experiment results demonstrate the effectiveness of ACF that
we achieve CIDEr of 137.8, which outperforms most SOTA captioning models and
achieve comparable scores compared with some BERT-based models. The code will
be available in the supplementary material.
- Abstract(参考訳): 我々は,キャプションを生成するために,新しいグローバルローカルトランスフォーマーである \textbf{Ada-ClustFormer} (\textbf{ACF}) を設計する。
ACFの各レイヤが適応的に入力要素をクラスタリングして、ローカルコンテキストの学習に自己注意(Self-ATT)を持てるので、この名前を使います。
固定サイズの窓にセルフアットを持つ他のグローバルローカルトランスフォーマーと比較すると、affは様々な粒度を捉えることができる。
ACFを構築するために、確率行列CをSelf-ATT層に挿入する。
入力シーケンス {{s}_1,...,{s}_N ,C_{i,j} は、自己ATTを運ぶためにサブシーケンス {s_i,...,s_j} をクラスタ化するか否かをソフトに決定する。
実装のために、{c}_{i,j} は {{s}_i,...,{s}_j} の文脈から計算されるので、acf は入力自身を利用してどの局所的な文脈を学ぶべきかを決定することができる。
acfを使って視覚エンコーダと言語デコーダを構築することで、キャプションモデルは視覚と言語の両方の隠れた構造を自動的に発見することができる。
実験の結果,ACFが137.8のCIDErを達成し,ほとんどのSOTAキャプションモデルより優れ,BERTベースモデルと同等のスコアが得られることがわかった。
コードは補足資料で入手できます。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文 参考訳(メタデータ) (2021-08-24T08:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。