論文の概要: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
- arxiv url: http://arxiv.org/abs/2112.02399v3
- Date: Thu, 10 Aug 2023 15:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:55:08.378043
- Title: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
- Title(参考訳): VT-CLIP:視覚誘導テキストによる視覚言語モデルの実現
- Authors: Longtian Qiu, Renrui Zhang, Ziyu Guo, Ziyao Zeng, Zilu Guo, Yafeng Li,
Guangnan Zhang
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
- 参考スコア(独自算出の注目度): 2.0434814235659555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has drawn increasing attention
recently for its transferable visual representation learning. However, due to
the semantic gap within datasets, CLIP's pre-trained image-text alignment
becomes sub-optimal on downstream tasks, which severely harms its transferring
performance. To better adapt the cross-modality embedding space, we propose to
enhance CLIP via Visual-guided Texts, named VT-CLIP. Specifically, we guide
textual features of different categories to adaptively explore informative
regions on the image and aggregate visual features by attention mechanisms. In
this way, the texts become visual-guided, namely, more semantically correlated
with downstream images, which greatly benefits the category-wise matching
process. In few-shot settings, we evaluate our VT-CLIP on 11 well-known
classification datasets to demonstrate its effectiveness.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
しかし、データセット内のセマンティックなギャップのため、CLIPの事前訓練されたイメージテキストアライメントは、下流タスクのサブ最適化となり、転送性能を著しく損なう。
クロスモーダルな埋め込み空間をよりよく適応するために,VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの拡張を提案する。
具体的には,画像上の情報領域を適応的に探索し,注意機構により視覚特徴を集約するために,異なるカテゴリのテキスト特徴をガイドする。
このようにして、テキストは視覚的に誘導され、より意味論的に下流の画像と相関し、カテゴリワイドマッチングのプロセスに大きく貢献する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。