論文の概要: ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval
- arxiv url: http://arxiv.org/abs/2312.12478v3
- Date: Thu, 29 Feb 2024 12:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:02:25.292235
- Title: ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval
- Title(参考訳): ProS:Universal Cross-Domain Retrievalのための汎用知識の実証とシミュレーション
- Authors: Kaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng,
Xiyao Li, Heng Tao Shen
- Abstract要約: textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 123.51277978744677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of Universal Cross-Domain Retrieval (UCDR) is to achieve robust
performance in generalized test scenarios, wherein data may belong to strictly
unknown domains and categories during training. Recently, pre-trained models
with prompt tuning have shown strong generalization capabilities and attained
noteworthy achievements in various downstream tasks, such as few-shot learning
and video-text retrieval. However, applying them directly to UCDR may not
sufficiently to handle both domain shift (i.e., adapting to unfamiliar domains)
and semantic shift (i.e., transferring to unknown categories). To this end, we
propose \textbf{Pro}mpting-to-\textbf{S}imulate (ProS), the first method to
apply prompt tuning for UCDR. ProS employs a two-step process to simulate
Content-aware Dynamic Prompts (CaDP) which can impact models to produce
generalized features for UCDR. Concretely, in Prompt Units Learning stage, we
introduce two Prompt Units to individually capture domain and semantic
knowledge in a mask-and-align way. Then, in Context-aware Simulator Learning
stage, we train a Content-aware Prompt Simulator under a simulated test
scenarios to produce the corresponding CaDP. Extensive experiments conducted on
three benchmark datasets show that our method achieves new state-of-the-art
performance without bringing excessive parameters. Our method is publicly
available at https://github.com/fangkaipeng/ProS.
- Abstract(参考訳): ユニバーサルクロスドメイン検索(ucdr)の目標は、トレーニング中にデータが厳密に未知のドメインやカテゴリに属する可能性がある一般的なテストシナリオにおいて、堅牢なパフォーマンスを達成することである。
近年,プロンプトチューニングによる事前学習モデルでは,一般化能力が強く,数ショット学習やビデオテキスト検索などの下流課題においても注目に値する成果が得られている。
しかし、UCDRに直接適用しても、ドメインシフト(不慣れなドメインへの適応)とセマンティックシフト(未知のカテゴリへの移動)の両方を扱うのに十分ではないかもしれない。
この目的のために,UCDR にプロンプトチューニングを適用する最初の方法である \textbf{Pro}mpting-to-\textbf{S}imulate (ProS) を提案する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
具体的には、Prompt Units Learningの段階で、ドメインとセマンティック知識をマスク・アンド・アラインな方法で個別にキャプチャする2つのPrompt Unitを導入します。
次に,コンテントアウェアシミュレータ学習段階において,コンテントアウェアプロンプトシミュレータをシミュレートテストシナリオで訓練し,対応するcadpを生成する。
3つのベンチマークデータセットで行った広範囲な実験により,本手法は過剰なパラメータを伴わずに新たな最先端性能を達成できた。
このメソッドはhttps://github.com/fangkaipeng/prosで公開されている。
関連論文リスト
- Soft Prompt Generation for Domain Generalization [13.957351735394683]
大規模な事前訓練された視覚言語モデル(VLM)は、手動で設計したプロンプトで下流のタスクに印象的なゼロショット能力を示している。
下流タスクにVLMをさらに適応させるために、手動で設計したプロンプトを置き換えるソフトプロンプトが提案されている。
論文 参考訳(メタデータ) (2024-04-30T06:33:07Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。