論文の概要: CP-Prompt: Composition-Based Cross-modal Prompting for Domain-Incremental Continual Learning
- arxiv url: http://arxiv.org/abs/2407.21043v2
- Date: Fri, 2 Aug 2024 14:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 15:40:20.133883
- Title: CP-Prompt: Composition-Based Cross-modal Prompting for Domain-Incremental Continual Learning
- Title(参考訳): CP-Prompt:ドメイン・インクリメンタル連続学習のための構成に基づくクロスモーダル・プロンプト
- Authors: Yu Feng, Zhen Tian, Yifan Zhu, Zongfu Han, Haoran Luo, Guangwei Zhang, Meina Song,
- Abstract要約: クロスモーダルドメイン増分学習(DIL)の主な課題は、学習モデルが新しいデータから継続的に学習できるようにすることである。
本稿では,制約パラメータをトレーニングし,事前学習したモデルに新しいドメインを学習させる,シンプルで効果的なフレームワークCP-Promptを提案する。
- 参考スコア(独自算出の注目度): 15.393734346359064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key challenge of cross-modal domain-incremental learning (DIL) is to enable the learning model to continuously learn from novel data with different feature distributions under the same task without forgetting old ones. However, existing top-performing methods still cause high forgetting rates, by lacking intra-domain knowledge extraction and inter-domain common prompting strategy. In this paper, we propose a simple yet effective framework, CP-Prompt, by training limited parameters to instruct a pre-trained model to learn new domains and avoid forgetting existing feature distributions. CP-Prompt captures intra-domain knowledge by compositionally inserting personalized prompts on multi-head self-attention layers and then learns the inter-domain knowledge with a common prompting strategy. CP-Prompt shows superiority compared with state-of-the-art baselines among three widely evaluated DIL tasks. The source code is available at https://github.com/dannis97500/CP_Prompt.
- Abstract(参考訳): クロスモーダルドメイン・インクリメンタル・ラーニング(DIL)の鍵となる課題は、学習モデルが古いことを忘れずに、同じタスクの下で異なる特徴分布を持つ新しいデータから継続的に学習できるようにすることである。
しかし、ドメイン内知識抽出とドメイン間共通プロンプト戦略が欠如しているため、既存のトップパフォーマンス手法は依然として高い忘れ込み率を引き起こす。
本稿では,制約パラメータをトレーニングして,事前学習したモデルに新しいドメインを学習させ,既存の特徴分布を忘れないようにする,シンプルで効果的なフレームワークCP-Promptを提案する。
CP-Promptはドメイン内知識を、多頭部自己注意層にパーソナライズされたプロンプトを合成的に挿入し、共通のプロンプト戦略でドメイン間知識を学ぶ。
CP-Promptは,3つの広く評価されたDILタスクにおいて,最先端のベースラインよりも優れていた。
ソースコードはhttps://github.com/dannis97500/CP_Prompt.comで入手できる。
関連論文リスト
- ID-centric Pre-training for Recommendation [51.72177873832969]
IDの埋め込みは、新しいドメインに移すことが難しい。
ID埋め込みにおける行動情報は、まだPLMベースのレコメンデーションモデルで支配的であることが証明されている。
本稿では,事前学習ドメインで学習した情報型ID埋め込みを新しいドメインの項目表現に直接転送する,新しいID中心の事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-06T15:34:31Z) - Towards Cross-Domain Continual Learning [8.22291258264193]
CDCL(Cross-Domain Continual Learning)と呼ばれる新しいアプローチを導入する。
提案手法は,コンパクトな畳み込みネットワーク内でのタスク間およびタスク内クロスアテンション機構を組み合わせたものである。
タスク内固有の擬似ラベル付け手法を利用して,ラベル付きサンプルとラベルなしサンプルの両方に対して正確な入力ペアを確保する。
論文 参考訳(メタデータ) (2024-02-19T19:54:03Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - MoP-CLIP: A Mixture of Prompt-Tuned CLIP Models for Domain Incremental
Learning [12.737883740101438]
本稿では,プロンプト調整型CLIPモデル(MoP-CLIP)を用いた新しいDIL手法を提案する。
トレーニング段階では、各ドメインの各クラスの特徴分布をモデル化し、個々のテキストと視覚的プロンプトを学習して、特定のドメインに適応させます。
学習した分布は、与えられたテストサンプルが既知のドメインに属しているかどうかを識別し、分類タスクの正しいプロンプトを選択する。
論文 参考訳(メタデータ) (2023-07-11T18:17:50Z) - Deeply Coupled Cross-Modal Prompt Learning [25.813769028565567]
CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。
DCPは、CMPA(Cross-Modal Prompt Attention)メカニズムにより、視覚と言語の間の相互作用を柔軟に許容する。
そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトへの適応も分析する。
論文 参考訳(メタデータ) (2023-05-29T06:26:52Z) - SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for
Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。
筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。
彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文 参考訳(メタデータ) (2023-02-14T07:14:08Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。