論文の概要: Adaptively Clustering Neighbor Elements for Image Captioning
- arxiv url: http://arxiv.org/abs/2301.01955v1
- Date: Thu, 5 Jan 2023 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:09:53.040585
- Title: Adaptively Clustering Neighbor Elements for Image Captioning
- Title(参考訳): 画像キャプションのための隣接要素の適応クラスタリング
- Authors: Zihua Wang and Xu Yang and Haiyang Xu and Hanwang Zhang and Chenliang
Li and Songfang Huang and Fei Huang and Yu Zhang
- Abstract要約: 我々は、字幕を生成するためにtextbfAda-ClustFormer (textbfACF) という新しいグローバルローカルトランスフォーマーを設計する。
ACFの各レイヤは、入力要素を適応的にクラスタリングして、ローカルコンテキストを学ぶための自己アテンション(Self-ATT)を運ぶことができる。
- 参考スコア(独自算出の注目度): 97.78947477992057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We design a novel global-local Transformer named \textbf{Ada-ClustFormer}
(\textbf{ACF}) to generate captions. We use this name since each layer of ACF
can adaptively cluster input elements to carry self-attention (Self-ATT) for
learning local context. Compared with other global-local Transformers which
carry Self-ATT in fixed-size windows, ACF can capture varying graininess, \eg,
an object may cover different numbers of grids or a phrase may contain diverse
numbers of words. To build ACF, we insert a probabilistic matrix C into the
Self-ATT layer. For an input sequence {{s}_1,...,{s}_N , C_{i,j} softly
determines whether the sub-sequence {s_i,...,s_j} should be clustered for
carrying Self-ATT. For implementation, {C}_{i,j} is calculated from the
contexts of {{s}_i,...,{s}_j}, thus ACF can exploit the input itself to decide
which local contexts should be learned. By using ACF to build the vision
encoder and language decoder, the captioning model can automatically discover
the hidden structures in both vision and language, which encourages the model
to learn a unified structural space for transferring more structural
commonalities. The experiment results demonstrate the effectiveness of ACF that
we achieve CIDEr of 137.8, which outperforms most SOTA captioning models and
achieve comparable scores compared with some BERT-based models. The code will
be available in the supplementary material.
- Abstract(参考訳): 我々は,キャプションを生成するために,新しいグローバルローカルトランスフォーマーである \textbf{Ada-ClustFormer} (\textbf{ACF}) を設計する。
ACFの各レイヤが適応的に入力要素をクラスタリングして、ローカルコンテキストの学習に自己注意(Self-ATT)を持てるので、この名前を使います。
固定サイズの窓にセルフアットを持つ他のグローバルローカルトランスフォーマーと比較すると、affは様々な粒度を捉えることができる。
ACFを構築するために、確率行列CをSelf-ATT層に挿入する。
入力シーケンス {{s}_1,...,{s}_N ,C_{i,j} は、自己ATTを運ぶためにサブシーケンス {s_i,...,s_j} をクラスタ化するか否かをソフトに決定する。
実装のために、{c}_{i,j} は {{s}_i,...,{s}_j} の文脈から計算されるので、acf は入力自身を利用してどの局所的な文脈を学ぶべきかを決定することができる。
acfを使って視覚エンコーダと言語デコーダを構築することで、キャプションモデルは視覚と言語の両方の隠れた構造を自動的に発見することができる。
実験の結果,ACFが137.8のCIDErを達成し,ほとんどのSOTAキャプションモデルより優れ,BERTベースモデルと同等のスコアが得られることがわかった。
コードは補足資料で入手できます。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。