論文の概要: Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting
- arxiv url: http://arxiv.org/abs/2412.00767v1
- Date: Sun, 01 Dec 2024 11:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:22.710697
- Title: Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting
- Title(参考訳): Prompt as Free Lunch:Semantic-Guided PromptingによるソースフリークロスドメインFew-shot学習における多様性向上
- Authors: Linhai Zhuo, Zheng Wang, Yuqian Fu, Tianwen Qian,
- Abstract要約: ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
- 参考スコア(独自算出の注目度): 9.116108409344177
- License:
- Abstract: The source-free cross-domain few-shot learning (CD-FSL) task aims to transfer pretrained models to target domains utilizing minimal samples, eliminating the need for source domain data. Addressing this issue requires models to have robust generalization abilities and strong feature representation, aligning with the characteristics of large-scale pretrained models. However, large-scale models tend to lose representational ability in cross-domain scenarios due to limited sample diversity. \zlh{Given the abundant diversity provided by semantic modality, this paper leverages textual modality to enhance training sample diversity with CLP model}, meanwhile improving model transfer efficiency. Specifically, we propose the SeGD-VPT framework, which is divided into two phases. The first step aims to increase feature diversity by adding diversity prompts to each support sample, thereby generating varying input and enhancing sample diversity. Furthermore, we use diversity descriptions of classes to guide semantically meaningful learning of diversity prompts, proposing random combinations and selections of texts to increase textual diversity. Additionally, deep prompt tuning is introduced to enhance the model's transfer capability. After training of the first step, support samples with different diversity prompts are input into the CLIP backbone to generate enhanced features. After generation, the second phase trains classifiers using the generated features. Extensive experimental results across several benchmarks verify our method is comparable to SOTA source-utilized models and attain the best performance under the source-free CD-FSL setting.
- Abstract(参考訳): ソースフリーのクロスドメイン・ショットラーニング(CD-FSL)タスクは、最小限のサンプルを使用してトレーニング済みモデルをターゲットドメインに転送することを目的としており、ソースドメインデータの必要性を排除している。
この問題に対処するためには、大規模な事前学習モデルの特徴に合わせて、堅牢な一般化能力と強力な特徴表現を持つモデルが必要である。
しかし、大規模なモデルでは、サンプルの多様性が制限されているため、クロスドメインシナリオにおいて表現能力を失う傾向にある。
セマンティックモダリティによって提供される豊富な多様性に加えて,本論文はテキストモダリティを活用して,CLPモデルを用いたトレーニングサンプルの多様性を高めるとともに,モデル伝達効率を向上させる。
具体的には,2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
さらに、クラスにおける多様性記述を用いて、多様性のプロンプトの意味論的学習を導き、テキストのランダムな組み合わせと選択を提案し、テキストの多様性を高める。
さらに、モデルの転送能力を高めるために、ディーププロンプトチューニングが導入される。
最初のステップのトレーニングの後、異なる多様性プロンプトを持つサポートサンプルがCLIPバックボーンに入力され、強化された機能を生成する。
生成後、第2段階の列車は生成した特徴を用いて分類する。
いくつかのベンチマークによる実験結果から,本手法はSOTAのソース利用モデルに匹敵し,ソースフリーのCD-FSL設定で最高の性能を得ることができた。
関連論文リスト
- Synthesize, Partition, then Adapt: Eliciting Diverse Samples from Foundation Models [14.037826400805741]
本稿では,多くのドメインで利用可能な豊富な合成データを活用し,基礎モデルから多様な応答を抽出する新しいフレームワークであるSynthesize-Partition-Adapt (SPA)を提案する。
影響関数などのデータ帰属法によって提供される信号を利用することで、SPAはデータをサブセットに分割し、それぞれがデータ固有の側面をターゲットにし、これらのサブセットに最適化された複数のモデル適応を訓練する。
論文 参考訳(メタデータ) (2024-11-11T05:13:21Z) - Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density [70.14884528360199]
本稿では, GAN や拡散モデルなどのバイアス深層生成モデルへのアプローチを導入し, 忠実度の向上や多様性の向上を図ったデータ生成手法を提案する。
提案手法では, 擬似密度という, 個人サンプルの新たな測定基準を用いて, トレーニングとデータ生成の分布を操作する。
論文 参考訳(メタデータ) (2024-07-11T16:46:04Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Diverse Text Generation via Variational Encoder-Decoder Models with
Gaussian Process Priors [21.71928935339393]
高品質なテキストを生成するための新しい潜在構造変数モデルを提案する。
具体的には、決定論的エンコーダの隠蔽状態をランダムな文脈変数にマッピングする関数を導入する。
ガウス過程の学習課題に対処するために,効率的な変分推論手法を提案する。
論文 参考訳(メタデータ) (2022-04-04T04:09:15Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。