論文の概要: Can Synthetic Images Serve as Effective and Efficient Class Prototypes?
- arxiv url: http://arxiv.org/abs/2512.17160v1
- Date: Fri, 19 Dec 2025 01:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.214623
- Title: Can Synthetic Images Serve as Effective and Efficient Class Prototypes?
- Title(参考訳): 合成画像は効率的かつ効率的なクラスプロトタイプとなるか?
- Authors: Dianxing Shi, Dingjie Fu, Yuqiao Liu, Jun Wang,
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) は、視覚的およびテキスト的モダリティの調整にアノテーション付きテキスト対イメージペアに依存している。
この依存関係は、高品質なデータセットを作成する上で、相当なコストと精度の要求をもたらす。
本稿では,Large-Language-Model-based Generation (LGCLIP) フレームワークを用いたコントラスト言語画像事前学習を提案する。
- 参考スコア(独自算出の注目度): 4.813908624670794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown strong performance in zero-shot image classification tasks. However, existing methods, including Contrastive Language-Image Pre-training (CLIP), all rely on annotated text-to-image pairs for aligning visual and textual modalities. This dependency introduces substantial cost and accuracy requirement in preparing high-quality datasets. At the same time, processing data from two modes also requires dual-tower encoders for most models, which also hinders their lightweight. To address these limitations, we introduce a ``Contrastive Language-Image Pre-training via Large-Language-Model-based Generation (LGCLIP)" framework. LGCLIP leverages a Large Language Model (LLM) to generate class-specific prompts that guide a diffusion model in synthesizing reference images. Afterwards these generated images serve as visual prototypes, and the visual features of real images are extracted and compared with the visual features of these prototypes to achieve comparative prediction. By optimizing prompt generation through the LLM and employing only a visual encoder, LGCLIP remains lightweight and efficient. Crucially, our framework requires only class labels as input during whole experimental procedure, eliminating the need for manually annotated image-text pairs and extra pre-processing. Experimental results validate the feasibility and efficiency of LGCLIP, demonstrating great performance in zero-shot classification tasks and establishing a novel paradigm for classification.
- Abstract(参考訳): VLM(Vision-Language Models)は、ゼロショット画像分類タスクにおいて強力な性能を示す。
しかし、Contrastive Language-Image Pre-Training (CLIP)を含む既存の手法はすべて、視覚とテキストのモダリティの整合にアノテーション付きテキスト対に依存している。
この依存関係は、高品質なデータセットを作成する上で、相当なコストと精度の要求をもたらす。
同時に、2つのモードからデータを処理する場合、ほとんどのモデルではデュアルトワーエンコーダが必要となるため、軽量化も妨げられる。
これらの制約に対処するため,大言語モデルベースジェネレーション(LGCLIP)による「コントラスト言語画像事前学習」フレームワークを導入する。
LGCLIPはLarge Language Model (LLM)を活用して、参照画像の合成において拡散モデルを導くクラス固有のプロンプトを生成する。
その後、これらの生成画像は視覚的プロトタイプとして機能し、実画像の視覚的特徴を抽出し、これらのプロトタイプの視覚的特徴と比較して比較予測を行う。
LLMによる即時生成を最適化し、ビジュアルエンコーダのみを使用することで、LGCLIPは軽量で効率的である。
重要なことは、我々のフレームワークは、手動で注釈付けされた画像テキストペアと余分な事前処理を不要にするため、試験的な手順全体において入力としてクラスラベルのみを必要とする。
実験結果からLGCLIPの有効性と効率を検証し、ゼロショット分類タスクにおいて優れた性能を示し、新しい分類パラダイムを確立した。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。