論文の概要: Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning
- arxiv url: http://arxiv.org/abs/2504.11930v1
- Date: Wed, 16 Apr 2025 10:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:34.012555
- Title: Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning
- Title(参考訳): 単語を超えて:教師なしプロンプト学習における拡散による差別的豊かさの増大
- Authors: Hairui Ren, Fan Tang, He Zhao, Zixuan Wang, Dandan Guo, Yi Chang,
- Abstract要約: 現在の擬似ラベル戦略は、しばしば意味情報と視覚情報のミスマッチに苦しむ。
textbfAugmenting Dtextbfiscriminative textbfRichness via Diffusions (AiR)
- 参考スコア(独自算出の注目度): 23.129998055266245
- License:
- Abstract: Fine-tuning vision-language models (VLMs) with large amounts of unlabeled data has recently garnered significant interest. However, a key challenge remains the lack of high-quality pseudo-labeled data. Current pseudo-labeling strategies often struggle with mismatches between semantic and visual information, leading to sub-optimal performance of unsupervised prompt learning (UPL) methods. In this paper, we introduce a simple yet effective approach called \textbf{A}ugmenting D\textbf{i}scriminative \textbf{R}ichness via Diffusions (AiR), toward learning a richer discriminating way to represent the class comprehensively and thus facilitate classification. Specifically, our approach includes a pseudo-label generation module that leverages high-fidelity synthetic samples to create an auxiliary classifier, which captures richer visual variation, bridging text-image-pair classification to a more robust image-image-pair classification. Additionally, we exploit the diversity of diffusion-based synthetic samples to enhance prompt learning, providing greater information for semantic-visual alignment. Extensive experiments on five public benchmarks, including RESISC45 and Flowers102, and across three learning paradigms-UL, SSL, and TRZSL-demonstrate that AiR achieves substantial and consistent performance improvements over state-of-the-art unsupervised prompt learning methods.
- Abstract(参考訳): 大量のラベルのないデータを持つ微調整型視覚言語モデル(VLM)は、最近大きな関心を集めている。
しかし、重要な課題は、高品質な擬似ラベル付きデータの欠如である。
現在の擬似ラベル戦略は、意味情報と視覚情報のミスマッチに苦しむことが多く、教師なしのプロンプト学習(UPL)手法の準最適性能をもたらす。
本稿では,D\textbf{A}ugmenting D\textbf{i}scriminative \textbf{R}ichness via Diffusions (AiR) という,クラスを包括的に表現するより豊かな識別方法を学ぶための,シンプルで効果的なアプローチを紹介する。
具体的には、高忠実度合成サンプルを利用した擬似ラベル生成モジュールを用いて、よりリッチな視覚的変化を捉え、テキスト-画像-ペア分類をより堅牢な画像-画像-ペア分類に変換する補助分類器を作成する。
さらに、拡散に基づく合成サンプルの多様性を利用して、迅速な学習を促進し、セマンティック・視覚的アライメントのための情報を提供する。
RESISC45とFlowers102を含む5つの公開ベンチマークと、AiRが最先端の教師なしのプロンプト学習メソッドよりも大幅に、一貫したパフォーマンス改善を達成している3つの学習パラダイム(UL、SSL、TRZSL-demonstrate)にわたる広範な実験である。
関連論文リスト
- Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。
SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:06:54Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。