Fugu-MT 論文翻訳(概要): Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

論文の概要: Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

arxiv url: http://arxiv.org/abs/2405.16401v1
Date: Sun, 26 May 2024 01:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 21:28:05.109373
Title: Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning
Title（参考訳）: 視覚表現学習における意味に富んだ知識の活用効果の理解
Authors: Neha Kalibhat, Priyatham Kattakinda, Arman Zarei, Nikita Seleznev, Samuel Sharpe, Senthil Kumar, Soheil Feizi,
Abstract要約: 視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
参考スコア（独自算出の注目度）: 41.81009725976217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. We hypothesize that this design choice may limit models in learning comprehensive and compositional representations from visual data. This paper explores the notion of providing semantically-meaningful visual tokens to transformer encoders within a vision-language pre-training framework. Leveraging off-the-shelf segmentation and scene-graph models, we extract representations of instance segmentation masks (referred to as tangible tokens) and relationships and actions (referred to as intangible tokens). Subsequently, we pre-train a vision-side transformer by incorporating these newly extracted tokens and aligning the resultant embeddings with caption embeddings from a text-side encoder. To capture the structural and semantic relationships among visual tokens, we introduce additive attention weights, which are used to compute self-attention scores. Our experiments on COCO demonstrate notable improvements over ViTs in learned representation quality across text-to-image (+47%) and image-to-text retrieval (+44%) tasks. Furthermore, we showcase the advantages on compositionality benchmarks such as ARO (+18%) and Winoground (+10%).
Abstract（参考訳）: ビジョントランスフォーマーは、画像処理前に一様サイズのチャンクにイメージをパッチする先例を確立した。この設計選択は、視覚データから包括的および構成的表現を学習する際のモデルを制限する可能性があると仮定する。本稿では,視覚言語事前学習フレームワーク内で,トランスフォーマーエンコーダに意味論的に意味のある視覚トークンを提供することについて検討する。オフザシェルフセグメンテーションとシーングラフモデルを利用して、インスタンスセグメンテーションマスク(有形トークン)とリレーションとアクション(無形トークン)の表現を抽出する。その後、新たに抽出されたトークンを組み込んで、テキスト側エンコーダからのキャプション埋め込みと組み合わせることで、視覚側トランスフォーマーを事前訓練する。視覚的トークン間の構造的・意味的関係を捉えるために,自己注意スコアの計算に使用される付加的注意重みを導入する。テキスト・ツー・イメージ(+47%)と画像・トゥ・テキスト検索(+44%)にまたがる、学習された表現品質のViTに対する顕著な改善を示した。さらに,ARO (+18%) やWinoground (+10%) などの構成性ベンチマークの利点を示す。

関連論文リスト

PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。 textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2025-01-21T15:22:31Z)
KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文参考訳（メタデータ） (2024-10-14T07:39:30Z)
Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文参考訳（メタデータ） (2024-06-03T17:58:43Z)
Dissecting Query-Key Interaction in Vision Transformers [4.743574336827573]
視覚変換器における自己注意はしばしば知覚的なグループ化を行うと考えられている。相互作用行列の特異値分解による問合せキーの相互作用の解析を行う。
論文参考訳（メタデータ） (2024-04-04T20:06:07Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文参考訳（メタデータ） (2023-08-23T18:53:00Z)
Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文参考訳（メタデータ） (2021-12-09T22:05:05Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。