論文の概要: Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2405.16401v1
- Date: Sun, 26 May 2024 01:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:28:05.109373
- Title: Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning
- Title(参考訳): 視覚表現学習における意味に富んだ知識の活用効果の理解
- Authors: Neha Kalibhat, Priyatham Kattakinda, Arman Zarei, Nikita Seleznev, Samuel Sharpe, Senthil Kumar, Soheil Feizi,
- Abstract要約: 視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
- 参考スコア(独自算出の注目度): 41.81009725976217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. We hypothesize that this design choice may limit models in learning comprehensive and compositional representations from visual data. This paper explores the notion of providing semantically-meaningful visual tokens to transformer encoders within a vision-language pre-training framework. Leveraging off-the-shelf segmentation and scene-graph models, we extract representations of instance segmentation masks (referred to as tangible tokens) and relationships and actions (referred to as intangible tokens). Subsequently, we pre-train a vision-side transformer by incorporating these newly extracted tokens and aligning the resultant embeddings with caption embeddings from a text-side encoder. To capture the structural and semantic relationships among visual tokens, we introduce additive attention weights, which are used to compute self-attention scores. Our experiments on COCO demonstrate notable improvements over ViTs in learned representation quality across text-to-image (+47%) and image-to-text retrieval (+44%) tasks. Furthermore, we showcase the advantages on compositionality benchmarks such as ARO (+18%) and Winoground (+10%).
- Abstract(参考訳): ビジョントランスフォーマーは、画像処理前に一様サイズのチャンクにイメージをパッチする先例を確立した。
この設計選択は、視覚データから包括的および構成的表現を学習する際のモデルを制限する可能性があると仮定する。
本稿では,視覚言語事前学習フレームワーク内で,トランスフォーマーエンコーダに意味論的に意味のある視覚トークンを提供することについて検討する。
オフザシェルフセグメンテーションとシーングラフモデルを利用して、インスタンスセグメンテーションマスク(有形トークン)とリレーションとアクション(無形トークン)の表現を抽出する。
その後、新たに抽出されたトークンを組み込んで、テキスト側エンコーダからのキャプション埋め込みと組み合わせることで、視覚側トランスフォーマーを事前訓練する。
視覚的トークン間の構造的・意味的関係を捉えるために,自己注意スコアの計算に使用される付加的注意重みを導入する。
テキスト・ツー・イメージ(+47%)と画像・トゥ・テキスト検索(+44%)にまたがる、学習された表現品質のViTに対する顕著な改善を示した。
さらに,ARO (+18%) やWinoground (+10%) などの構成性ベンチマークの利点を示す。
関連論文リスト
- Dissecting Query-Key Interaction in Vision Transformers [4.743574336827573]
視覚変換器における自己注意はしばしば、トークンが同様の埋め込みを持つ他のトークンに付随する知覚的なグループ化を行うと考えられている。
問合せキーの相互作用を解くために,Singular Value Decompositionを提案する。
初期層は類似したトークンに,後期層は異種のトークンに注意を向ける傾向が見られた。
論文 参考訳(メタデータ) (2024-04-04T20:06:07Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。