論文の概要: Multiple Stochastic Prompt Tuning for Practical Cross-Domain Few Shot Learning
- arxiv url: http://arxiv.org/abs/2506.03926v1
- Date: Wed, 04 Jun 2025 13:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.347166
- Title: Multiple Stochastic Prompt Tuning for Practical Cross-Domain Few Shot Learning
- Title(参考訳): 実践的クロスドメインショット学習のための確率的プロンプトチューニング
- Authors: Debarshi Brahma, Soma Biswas,
- Abstract要約: 本稿では、CLIPのような大規模事前学習モデルを簡単にターゲットデータセットにデプロイできるクロスドメイン・数ショット学習タスクを提案する。
ゴールは、クラスごとにラベル付けされたサンプルだけを利用することで、極端なドメインシフトの下で、すべての見えないクラスを同時に分類することである。
本稿では,MIST(MultIple STochastic Prompt tuning)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.85375816073596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a practical cross-domain few-shot learning (pCDFSL) task, where a large-scale pre-trained model like CLIP can be easily deployed on a target dataset. The goal is to simultaneously classify all unseen classes under extreme domain shifts, by utilizing only a few labeled samples per class. The pCDFSL paradigm is source-free and moves beyond artificially created episodic training and testing regimes followed by existing CDFSL frameworks, making it more challenging and relevant to real-world applications. Towards that goal, we propose a novel framework, termed MIST (MultIple STochastic Prompt tuning), where multiple stochastic prompts are utilized to handle significant domain and semantic shifts. Specifically, multiple prompts are learnt for each class, effectively capturing multiple peaks in the input data. Furthermore, instead of representing the weights of the multiple prompts as point-estimates, we model them as learnable Gaussian distributions with two different strategies, encouraging an efficient exploration of the prompt parameter space, which mitigate overfitting due to the few labeled training samples. Extensive experiments and comparison with the state-of-the-art methods on four CDFSL benchmarks adapted to this setting, show the effectiveness of the proposed framework.
- Abstract(参考訳): 本稿では,CLIPのような大規模事前学習モデルを簡単にターゲットデータセットに展開可能な,実践的なクロスドメイン・ショットラーニング(pCDFSL)タスクを提案する。
ゴールは、クラスごとにラベル付けされたサンプルだけを利用することで、極端なドメインシフトの下で、すべての見えないクラスを同時に分類することである。
pCDFSLパラダイムはソースフリーであり、人工的に作成されたエピソードトレーニングとテスト体制を超えて、既存のCDFSLフレームワークが続く。
そこで我々は,MIST(MultIple STochastic Prompt tuning)と呼ばれる新しいフレームワークを提案する。
具体的には、各クラス毎に複数のプロンプトを学習し、入力データの複数のピークを効果的にキャプチャする。
さらに、複数のプロンプトの重みを点推定として表現するのではなく、2つの異なる戦略で学習可能なガウス分布としてモデル化し、プロンプトパラメータ空間の効率的な探索を奨励する。
この設定に適応した4つのCDFSLベンチマークの大規模な実験と最先端手法との比較により,提案手法の有効性が示された。
関連論文リスト
- Cluster-Aware Prompt Ensemble Learning for Few-Shot Vision-Language Model Adaptation [40.60703048681749]
CLIPのような視覚言語モデル(VLM)は、多数の画像テキストペアを事前学習することで、様々なタスク間でゼロショット転送を実現する。
有効であるにもかかわらず、コンテキストプロンプトのテキスト的特徴を平均化する従来のプロンプトアンサンブルは、しばしば準最適結果をもたらす。
本稿では,コンテキストプロンプトのクラスタ特性を保存するクラスタ・アウェア・プロンプト・アンサンブル・ラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:58:43Z) - One Prompt Fits All: Universal Graph Adaptation for Pretrained Models [43.705631137295114]
Graph Prompt Learning (GPL)は、グラフ事前学習モデルと下流シナリオをブリッジする有望なパラダイムとして登場した。
提案するUniPromptは,事前学習されたモデルに適応し,入力グラフを保存しながら事前学習されたモデルの性能を解放する手法である。
論文 参考訳(メタデータ) (2025-09-26T14:39:31Z) - Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Cross-Domain Few-Shot Learning with Coalescent Projections and Latent Space Reservation [6.178597284949811]
Coalescent Projection (CP) はソフトプロンプトの効果的な後継である。
SST(Self-Supervised Transformations)は、異なるドメインから見知らぬサンプルに遭遇するネットワークを準備するために提案される。
論文 参考訳(メタデータ) (2025-07-21T05:01:27Z) - Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Real-Time Visual Object Tracking via Few-Shot Learning [107.39695680340877]
ビジュアルオブジェクト追跡(VOT)はFew-Shot Learning(FSL)の拡張タスクと見なすことができる。
適応速度を高速化しながら,多種多様のFSLアルゴリズムを適用可能な2段階のフレームワークを提案する。
VOT2018,OTB2015, NFS, UAV123, TrackingNet, GOT-10kの主要ベンチマークに関する実験を実施し,望ましいパフォーマンス向上とリアルタイム速度を示した。
論文 参考訳(メタデータ) (2021-03-18T10:02:03Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。
このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。
メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。