論文の概要: TIER: Text-Image Entropy Regularization for CLIP-style models
- arxiv url: http://arxiv.org/abs/2212.06710v1
- Date: Tue, 13 Dec 2022 16:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:02:39.687987
- Title: TIER: Text-Image Entropy Regularization for CLIP-style models
- Title(参考訳): TIER:CLIP型モデルのテキスト画像エントロピー正規化
- Authors: Anil Palepu, Andrew L. Beam
- Abstract要約: CLIPスタイルのモデルでは、テキストトークンの埋め込みは少数のイメージパッチの埋め込みと非常に類似している。
テキストトークンのエントロピーと画像パッチ類似度スコアをペナルティ化する新しい正規化スキームを用いて、この観測を形式化する。
提案手法は,テキスト・トケンと画像・パッチの類似度スコアを0に縮め,所望の効果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the effect of a novel regularization scheme on
contrastive language-image pre-trained (CLIP) models. Our approach is based on
the observation that, in many domains, text tokens should only describe a small
number of image regions and, likewise, each image region should correspond to
only a few text tokens. In CLIP-style models, this implies that text-token
embeddings should have high similarity to only a small number of image-patch
embeddings for a given image-text pair. We formalize this observation using a
novel regularization scheme that penalizes the entropy of the text-token to
image-patch similarity scores. We qualitatively and quantitatively demonstrate
that the proposed regularization scheme shrinks the text-token and image-patch
similarity scores towards zero, thus achieving the desired effect. We
demonstrate the promise of our approach in an important medical context where
this underlying hypothesis naturally arises. Using our proposed approach, we
achieve state of the art (SOTA) zero-shot performance on all tasks from the
CheXpert chest x-ray dataset, outperforming an unregularized version of the
model and several recently published self-supervised models.
- Abstract(参考訳): 本稿では,新しい正規化手法が言語画像事前学習(CLIP)モデルに与える影響について検討する。
我々のアプローチは、多くの領域において、テキストトークンは少数の画像領域のみを記述すべきであり、同様に、各画像領域は少数のテキストトークンに対応すべきである、という観察に基づいている。
クリップスタイルモデルでは、テキストトケン埋め込みは、与えられた画像テキストペアに対する少数のイメージパッチ埋め込みと高い類似性を持つべきである。
この観察を,テキストトケンのエントロピーを画像パッチ類似度スコアにペナライズする新しい正規化スキームを用いて定式化する。
提案手法がテキストとパッチの類似度スコアをゼロに縮小し,所望の効果を達成することを定性的かつ定量的に証明する。
この仮説が自然に生じる重要な医学的文脈において、我々のアプローチの可能性を実証する。
提案手法を用いることで,CheXpert胸部X線データセットから得られた全タスクに対するSOTAゼロショット性能を達成し,非正規化バージョンと最近公開されたいくつかの自己教師型モデルより優れていた。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。