論文の概要: Classification Done Right for Vision-Language Pre-Training
- arxiv url: http://arxiv.org/abs/2411.03313v2
- Date: Wed, 06 Nov 2024 12:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 11:17:43.517740
- Title: Classification Done Right for Vision-Language Pre-Training
- Title(参考訳): ビジョンランゲージ事前訓練のための分類法
- Authors: Zilong Huang, Qinghao Ye, Bingyi Kang, Jiashi Feng, Haoqi Fan,
- Abstract要約: 画像テキストデータに基づく視覚言語事前学習のための超単純な分類法であるSuperClassを紹介する。
SuperClassは、トークン化された生テキストを、追加のテキストフィルタリングや選択を必要とせずに、教師付き分類ラベルとして直接利用する。
SuperClassは、古典的なコンピュータビジョンベンチマークやビジョン言語ダウンストリームタスクなど、さまざまなダウンストリームタスクで優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 66.90286715149786
- License:
- Abstract: We introduce SuperClass, a super simple classification method for vision-language pre-training on image-text data. Unlike its contrastive counterpart CLIP who contrast with a text encoder, SuperClass directly utilizes tokenized raw text as supervised classification labels, without the need for additional text filtering or selection. Due to the absence of the text encoding as contrastive target, SuperClass does not require a text encoder and does not need to maintain a large batch size as CLIP does. SuperClass demonstrated superior performance on various downstream tasks, including classic computer vision benchmarks and vision language downstream tasks. We further explored the scaling behavior of SuperClass on model size, training length, or data size, and reported encouraging results and comparisons to CLIP. https://github.com/x-cls/superclass
- Abstract(参考訳): 画像テキストデータに基づく視覚言語事前学習のための超単純な分類法であるSuperClassを紹介する。
テキストエンコーダとは対照的なCLIPとは異なり、SuperClassはトークン化された生テキストを直接、追加のテキストフィルタリングやセレクションを必要とせずに、教師付き分類ラベルとして利用する。
テキストエンコーディングが対照的なターゲットとして存在しないため、SuperClassはテキストエンコーダを必要とせず、CLIPのように大きなバッチサイズを維持する必要もない。
SuperClassは、古典的なコンピュータビジョンベンチマークやビジョン言語ダウンストリームタスクなど、さまざまなダウンストリームタスクで優れたパフォーマンスを示した。
さらに,モデルサイズ,トレーニング期間,データサイズに対するSuperClassのスケーリング挙動について検討し,CLIPとの比較や推奨結果について報告する。
https://github.com/x-cls/superclass
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - X-Class: Text Classification with Extremely Weak Supervision [39.25777650619999]
本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-10-24T06:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。