論文の概要: Contrastive Visual Semantic Pretraining Magnifies the Semantics of
Natural Language Representations
- arxiv url: http://arxiv.org/abs/2203.07511v1
- Date: Mon, 14 Mar 2022 21:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:17:32.154383
- Title: Contrastive Visual Semantic Pretraining Magnifies the Semantics of
Natural Language Representations
- Title(参考訳): コントラスト的ビジュアルセマンティクス事前学習は自然言語表現のセマンティクスを拡大する
- Authors: Robert Wolfe, Aylin Caliskan
- Abstract要約: GPT-2とCLIPによる文脈化英語表現に対するコントラッシブ・ビジュアル・セマンティック・プレトレーニングの効果を比較した。
コントラスト的な視覚的セマンティックプレトレーニングは、GPT-2の文脈的単語埋め込みで見られる異方性を著しく軽減することがわかった。
以上の結果から,高い異方性は文脈化の必然的な結果ではないことが示唆された。
- 参考スコア(独自算出の注目度): 3.4157048274143316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We examine the effects of contrastive visual semantic pretraining by
comparing the geometry and semantic properties of contextualized English
language representations formed by GPT-2 and CLIP, a zero-shot multimodal image
classifier which adapts the GPT-2 architecture to encode image captions. We
find that contrastive visual semantic pretraining significantly mitigates the
anisotropy found in contextualized word embeddings from GPT-2, such that the
intra-layer self-similarity (mean pairwise cosine similarity) of CLIP word
embeddings is under .25 in all layers, compared to greater than .95 in the top
layer of GPT-2. CLIP word embeddings outperform GPT-2 on word-level semantic
intrinsic evaluation tasks, and achieve a new corpus-based state of the art for
the RG65 evaluation, at .88. CLIP also forms fine-grained semantic
representations of sentences, and obtains Spearman's rho = .73 on the
SemEval-2017 Semantic Textual Similarity Benchmark with no fine-tuning,
compared to no greater than rho = .45 in any layer of GPT-2. Finally,
intra-layer self-similarity of CLIP sentence embeddings decreases as the layer
index increases, finishing at .25 in the top layer, while the self-similarity
of GPT-2 sentence embeddings formed using the EOS token increases
layer-over-layer and never falls below .97. Our results indicate that high
anisotropy is not an inevitable consequence of contextualization, and that
visual semantic pretraining is beneficial not only for ordering visual
representations, but also for encoding useful semantic representations of
language, both on the word level and the sentence level.
- Abstract(参考訳): 画像キャプションの符号化にgpt-2アーキテクチャを適用したゼロショットマルチモーダル画像分類器であるgpt-2とclipによる文脈化英語表現の形状と意味特性を比較し,コントラスト的視覚意味事前学習の効果を検討した。
コントラスト的な視覚的セマンティックプレトレーニングは、GPT-2の文脈的単語埋め込みに見られる異方性を著しく軽減し、CLIPの単語埋め込みの層内自己相似性(単純な対側コサイン類似性)は、GPT-2の上位層では.95以上である。
CLIPワード埋め込みは、単語レベルの意味的固有の評価タスクにおいてGPT-2よりも優れており、RG65評価のための新しいコーパスベースの技術状態を達成する。
クリップはまた、文のきめ細かい意味表現も形成し、gpt-2のどの層でもrho = .45よりも大きいものに比べて、semeval-2017セマンティックテキスト類似度ベンチマークでspiermanのrho = .73を得る。
最後に、CLIP文の層内自己相似性は、層指数が増加するにつれて減少し、最上層で.25で終了する一方、EOSトークンを用いて形成されたGPT-2文の自己相似性は層上層を増加し、.97以下に落ちない。
その結果, 高い異方性は文脈化の必然的な結果であるだけでなく, 視覚表現の順序付けだけでなく, 単語レベルでも文レベルでも, 言語の意味表現の符号化にも有用であることが示唆された。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。
LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation [16.082155440640964]
CP2(Copy-Paste Contrastive Pretraining)と呼ばれる画素単位のコントラスト学習手法を提案する。
詳細は、画像(前景)から異なる背景画像にランダムな作物をコピー・ペーストし、意味的セグメンテーションモデルを事前訓練する。
実験では、下流セマンティックセグメンテーションにおけるCP2の強い性能を示す。
論文 参考訳(メタデータ) (2022-03-22T13:21:49Z) - VAST: The Valence-Assessing Semantics Test for Contextualizing Language
Models [3.4157048274143316]
VAST(Valence-Assessing Semantics Test)は,文脈適応型単語埋め込みのための本質的な評価課題である。
VASTは他の7つのLMにとって有用であり、7つの言語で使用できることを示す。
また,単語群間の単語埋め込み関係の相違を比較した結果,セマンティクスの分離後,よりステレオタイプ・コングルエントバイアスが認められた。
論文 参考訳(メタデータ) (2022-03-14T21:29:38Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。