論文の概要: Text-driven Prompt Generation for Vision-Language Models in Federated
Learning
- arxiv url: http://arxiv.org/abs/2310.06123v1
- Date: Mon, 9 Oct 2023 19:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 23:33:53.377937
- Title: Text-driven Prompt Generation for Vision-Language Models in Federated
Learning
- Title(参考訳): 連合学習における視覚言語モデルのためのテキスト駆動プロンプト生成
- Authors: Chen Qiu, Xingyu Li, Chaithanya Kumar Mummadi, Madan Ravi Ganesh,
Zhenzhen Li, Lu Peng, Wan-Yi Lin
- Abstract要約: FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
- 参考スコア(独自算出の注目度): 24.005620820818756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prompt learning for vision-language models, e.g., CoOp, has shown great
success in adapting CLIP to different downstream tasks, making it a promising
solution for federated learning due to computational reasons. Existing prompt
learning techniques replace hand-crafted text prompts with learned vectors that
offer improvements on seen classes, but struggle to generalize to unseen
classes. Our work addresses this challenge by proposing Federated Text-driven
Prompt Generation (FedTPG), which learns a unified prompt generation network
across multiple remote clients in a scalable manner. The prompt generation
network is conditioned on task-related text input, thus is context-aware,
making it suitable to generalize for both seen and unseen classes. Our
comprehensive empirical evaluations on nine diverse image classification
datasets show that our method is superior to existing federated prompt learning
methods, that achieve overall better generalization on both seen and unseen
classes and is also generalizable to unseen datasets.
- Abstract(参考訳): 視覚言語モデルのプロンプト学習(例えばcoop)は、異なる下流タスクにクリップを適用することに成功し、計算上の理由から連合学習に有望なソリューションとなっている。
既存のプロンプト学習テクニックは、手作りのテキストプロンプトを、見慣れたクラスの改善を提供するが、目に見えないクラスへの一般化に苦しむ学習ベクターに置き換える。
本研究では,複数のリモートクライアント間の統一的なプロンプト生成ネットワークをスケーラブルに学習するfederated text-driven prompt generation (fedtpg)を提案することで,この問題に対処した。
即時生成ネットワークはタスク関連テキスト入力に条件付けされており、コンテキスト対応であり、見知らぬクラスと見えないクラスの両方に一般化するのに適している。
9つの画像分類データセットに関する包括的実証的評価から,本手法は既存のフェデレーション型プロンプト学習法よりも優れていることが判明した。
関連論文リスト
- Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。