論文の概要: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
- arxiv url: http://arxiv.org/abs/2112.02399v1
- Date: Sat, 4 Dec 2021 18:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 12:21:55.300186
- Title: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
- Title(参考訳): VT-CLIP:視覚誘導テキストによる視覚言語モデルの実現
- Authors: Renrui Zhang, Longtian Qiu, Wei Zhang, Ziyao Zeng
- Abstract要約: 対照的に、CLIP(Contrastive Vision-Language Pre-Training)は、その伝達可能な視覚表現学習において、近年注目を集めている。
視覚誘導テキストを用いた視覚言語モデリングのためのVT-CLIPを提案する。
具体的には,画像上の情報領域を適応的に探索し,視覚的特徴をクロスアテンション・マカニズムによって集約する。
- 参考スコア(独自算出の注目度): 4.6923376182087875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Vision-Language Pre-training (CLIP) has drown increasing
attention recently for its transferable visual representation learning.
Supervised by large-scale image-text pairs, CLIP is able to align paired images
and texts and thus conduct zero-shot recognition in open-vocabulary scenarios.
However, there exists semantic gap between the specific application and
generally pre-trained knowledge, which makes the matching sub-optimal on
downstream tasks. In this paper, we propose VT-CLIP to enhance vision-language
modeling via visual-guided texts. Specifically, we guide the text feature to
adaptively explore informative regions on the image and aggregate the visual
feature by cross-attention machanism. In this way, the visual-guided text
become more semantically correlated with the image, which greatly benefits the
matching process. In few-shot settings, we evaluate our VT-CLIP on 11
well-known classification datasets and experiment extensive ablation studies to
demonstrate the effectiveness of VT-CLIP. The code will be released soon.
- Abstract(参考訳): コントラストヴィジュアル言語事前学習(clip)は、移入可能な視覚表現学習で近年注目を集めている。
大規模な画像テキストペアによって監督されるCLIPは、ペア画像とテキストをアライメントすることで、オープン語彙シナリオでゼロショット認識を行うことができる。
しかし、特定のアプリケーションと一般的に訓練済みの知識の間には意味的なギャップがあり、下流のタスクで一致するサブ最適となる。
本稿では,視覚誘導テキストを用いた視覚言語モデリングのためのVT-CLIPを提案する。
具体的には,画像上の情報領域を適応的に探索し,視覚的特徴をクロスアテンション・マカニズムによって集約する。
このように、視覚誘導されたテキストは画像と意味的に相関しやすくなり、マッチングプロセスに大きな恩恵をもたらす。
筆者らは,11のよく知られた分類データセットを用いてVT-CLIPを評価し,VT-CLIPの有効性を実証するために広範囲にわたるアブレーション実験を行った。
コードはまもなくリリースされる。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。