論文の概要: CLIP also Understands Text: Prompting CLIP for Phrase Understanding
- arxiv url: http://arxiv.org/abs/2210.05836v1
- Date: Tue, 11 Oct 2022 23:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:03:21.580120
- Title: CLIP also Understands Text: Prompting CLIP for Phrase Understanding
- Title(参考訳): CLIPはテキストも理解する: フレーズ理解のためのCLIPのプロンプト
- Authors: An Yan, Jiacheng Li, Wanrong Zhu, Yujie Lu, William Yang Wang, Julian
McAuley
- Abstract要約: Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
- 参考スコア(独自算出の注目度): 65.59857372525664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) efficiently learns visual
concepts by pre-training with natural language supervision. CLIP and its visual
encoder have been explored on various vision and language tasks and achieve
strong zero-shot or transfer learning performance. However, the application of
its text encoder solely for text understanding has been less explored. In this
paper, we find that the text encoder of CLIP actually demonstrates strong
ability for phrase understanding, and can even significantly outperform popular
language models such as BERT with a properly designed prompt. Extensive
experiments validate the effectiveness of our method across different datasets
and domains on entity clustering and entity set expansion tasks.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
CLIPとそのビジュアルエンコーダは、様々なビジョンや言語タスクで探索され、強力なゼロショットやトランスファー学習性能を実現している。
しかし、テキストエンコーダのテキスト理解のみへの応用は、あまり研究されていない。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
大規模な実験により、エンティティクラスタリングやエンティティセット拡張タスクにおいて、異なるデータセットやドメインにまたがる手法の有効性が検証された。
関連論文リスト
- Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP [46.53595526049201]
CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。
解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。
SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
論文 参考訳(メタデータ) (2024-10-11T02:42:13Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - On the Difference of BERT-style and CLIP-style Text Encoders [21.276382551459847]
Masked Language Modeling (MLM)は、自然言語処理において最も人気のある事前学習レシピの一つである。
最近のコントラスト言語画像事前学習(CLIP)も注目されている。
論文 参考訳(メタデータ) (2023-06-06T13:41:09Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。