Fugu-MT 論文翻訳(概要): Text-driven Prompt Generation for Vision-Language Models in Federated Learning

論文の概要: Text-driven Prompt Generation for Vision-Language Models in Federated Learning

arxiv url: http://arxiv.org/abs/2310.06123v1
Date: Mon, 9 Oct 2023 19:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 23:33:53.377937
Title: Text-driven Prompt Generation for Vision-Language Models in Federated Learning
Title（参考訳）: 連合学習における視覚言語モデルのためのテキスト駆動プロンプト生成
Authors: Chen Qiu, Xingyu Li, Chaithanya Kumar Mummadi, Madan Ravi Ganesh, Zhenzhen Li, Lu Peng, Wan-Yi Lin
Abstract要約: FedTPG(Federated Text-Driven Prompt Generation)を提案する。 FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。 9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
参考スコア（独自算出の注目度）: 24.005620820818756
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Prompt learning for vision-language models, e.g., CoOp, has shown great success in adapting CLIP to different downstream tasks, making it a promising solution for federated learning due to computational reasons. Existing prompt learning techniques replace hand-crafted text prompts with learned vectors that offer improvements on seen classes, but struggle to generalize to unseen classes. Our work addresses this challenge by proposing Federated Text-driven Prompt Generation (FedTPG), which learns a unified prompt generation network across multiple remote clients in a scalable manner. The prompt generation network is conditioned on task-related text input, thus is context-aware, making it suitable to generalize for both seen and unseen classes. Our comprehensive empirical evaluations on nine diverse image classification datasets show that our method is superior to existing federated prompt learning methods, that achieve overall better generalization on both seen and unseen classes and is also generalizable to unseen datasets.
Abstract（参考訳）: 視覚言語モデルのプロンプト学習(例えばcoop)は、異なる下流タスクにクリップを適用することに成功し、計算上の理由から連合学習に有望なソリューションとなっている。既存のプロンプト学習テクニックは、手作りのテキストプロンプトを、見慣れたクラスの改善を提供するが、目に見えないクラスへの一般化に苦しむ学習ベクターに置き換える。本研究では,複数のリモートクライアント間の統一的なプロンプト生成ネットワークをスケーラブルに学習するfederated text-driven prompt generation (fedtpg)を提案することで,この問題に対処した。即時生成ネットワークはタスク関連テキスト入力に条件付けされており、コンテキスト対応であり、見知らぬクラスと見えないクラスの両方に一般化するのに適している。 9つの画像分類データセットに関する包括的実証的評価から,本手法は既存のフェデレーション型プロンプト学習法よりも優れていることが判明した。

関連論文リスト

Hierarchical Cross-modal Prompt Learning for Vision-Language Models [9.128564580725627]
HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。テキストと視覚の相補的な強みを活用して知識の流れを導出する。 11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
論文参考訳（メタデータ） (2025-07-20T14:18:04Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-27T05:33:18Z)
A Similarity Paradigm Through Textual Regularization Without Forgetting [17.251684463032433]
テキスト正規化による類似パラダイム(SPTR)と呼ばれる新しい手法を提案する。 SPTRは、手作りのプロンプトに基づく、分離不能なフレームワークである。 11のデータセットにまたがる4つの代表的なタスクは、SPTRが既存のプロンプト学習方法より優れていることを示している。
論文参考訳（メタデータ） (2025-02-20T09:06:44Z)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。 4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文参考訳（メタデータ） (2024-07-29T03:30:09Z)
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。 P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文参考訳（メタデータ） (2024-01-04T18:59:49Z)
DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文参考訳（メタデータ） (2023-08-19T15:48:38Z)
Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。我々の手法は既存の手法より一貫して大幅に優れています。
論文参考訳（メタデータ） (2022-12-08T11:23:24Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。