論文の概要: Multiple Stochastic Prompt Tuning for Few-shot Adaptation under Extreme Domain Shift
- arxiv url: http://arxiv.org/abs/2506.03926v2
- Date: Tue, 12 Aug 2025 13:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 18:56:18.59626
- Title: Multiple Stochastic Prompt Tuning for Few-shot Adaptation under Extreme Domain Shift
- Title(参考訳): 極端領域シフト下でのFew-shot Adaptationのための複数の確率的プロンプトチューニング
- Authors: Debarshi Brahma, Soma Biswas,
- Abstract要約: クラス毎に複数の学習可能なプロンプトを導入し,分布シフトによる視覚表現の多様なモードをキャプチャする。
これらのプロンプトは学習可能なガウス分布としてモデル化され、プロンプトパラメータ空間の効率的な探索を可能にする。
実験と最先端手法との比較により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 14.85375816073596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Vision-Language Models (VLMs) like CLIP exhibit strong generalization capabilities due to large-scale pretraining on diverse image-text pairs. However, their performance often degrades when applied to target datasets with significant distribution shifts in both visual appearance and class semantics. Recent few-shot learning approaches adapt CLIP to downstream tasks using limited labeled data via adapter or prompt tuning, but are not specifically designed to handle such extreme domain shifts. Conversely, some works addressing cross-domain few-shot learning consider such domain-shifted scenarios but operate in an episodic setting with only a few classes per episode, limiting their applicability to real-world deployment, where all classes must be handled simultaneously. To address this gap, we propose a novel framework, MIST (Multiple Stochastic Prompt Tuning), for efficiently adapting CLIP to datasets with extreme distribution shifts using only a few labeled examples, in scenarios involving all classes at once. Specifically, we introduce multiple learnable prompts per class to effectively capture diverse modes in visual representations arising from distribution shifts. To further enhance generalization, these prompts are modeled as learnable Gaussian distributions, enabling efficient exploration of the prompt parameter space and reducing overfitting caused by limited supervision. Extensive experiments and comparisons with state-of-the-art methods demonstrate the effectiveness of the proposed framework.
- Abstract(参考訳): CLIPのようなVLM(Foundation Vision-Language Models)は、さまざまな画像テキストペアに対する大規模な事前トレーニングによって、強力な一般化能力を示す。
しかしながら、そのパフォーマンスは、視覚的外観とクラスセマンティクスの両方において、大きな分散シフトを持つターゲットデータセットに適用されると劣化することが多い。
最近の数ショットの学習アプローチでは、アダプタやプロンプトチューニングによるラベル付きデータによる下流タスクにCLIPを適用するが、極端にドメインシフトを扱うように設計されているわけではない。
逆に、ドメイン間数ショット学習に対処する作業では、ドメインシフトしたシナリオを考慮しながら、エピソード毎に数クラスしか扱わないエピソディックな設定で運用し、すべてのクラスを同時に処理しなければならない実世界のデプロイメントに適用性を制限する。
このギャップに対処するために,CLIPを極端分布シフトのデータセットに効率的に適応する新しいフレームワークであるMIST(Multiple Stochastic Prompt Tuning)を提案する。
具体的には、クラス毎に複数の学習可能なプロンプトを導入し、分散シフトに起因する視覚表現の多様なモードを効果的にキャプチャする。
一般化をさらに促進するため、これらのプロンプトは学習可能なガウス分布としてモデル化され、プロンプトパラメータ空間の効率的な探索と、限られた監督による過剰適合の低減を可能にする。
大規模実験と最先端手法との比較により,提案手法の有効性が示された。
関連論文リスト
- Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Cross-Domain Few-Shot Learning with Coalescent Projections and Latent Space Reservation [6.178597284949811]
Coalescent Projection (CP) はソフトプロンプトの効果的な後継である。
SST(Self-Supervised Transformations)は、異なるドメインから見知らぬサンプルに遭遇するネットワークを準備するために提案される。
論文 参考訳(メタデータ) (2025-07-21T05:01:27Z) - Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Real-Time Visual Object Tracking via Few-Shot Learning [107.39695680340877]
ビジュアルオブジェクト追跡(VOT)はFew-Shot Learning(FSL)の拡張タスクと見なすことができる。
適応速度を高速化しながら,多種多様のFSLアルゴリズムを適用可能な2段階のフレームワークを提案する。
VOT2018,OTB2015, NFS, UAV123, TrackingNet, GOT-10kの主要ベンチマークに関する実験を実施し,望ましいパフォーマンス向上とリアルタイム速度を示した。
論文 参考訳(メタデータ) (2021-03-18T10:02:03Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。