論文の概要: DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.13443v1
- Date: Mon, 17 Mar 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:56.633825
- Title: DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models
- Title(参考訳): DPC: 視覚-言語モデルチューニングのためのデュアルプロンプト協調
- Authors: Haoyang Li, Liang Wang, Chao Wang, Jing Jiang, Yan Peng, Guodong Long,
- Abstract要約: Base-New Trade-off (BNT) 問題は、CLIPベースのプロンプトチューニングの最適化中に普遍的に存在する。
既存のアプローチでは、制約を付加することでBNTのバランスをとるために、プロンプトチューニングプロセスを規制しようと試みている。
本稿では,DPC(Dual-Prompt Collaboration)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.42895961568189
- License:
- Abstract: The Base-New Trade-off (BNT) problem universally exists during the optimization of CLIP-based prompt tuning, where continuous fine-tuning on base (target) classes leads to a simultaneous decrease of generalization ability on new (unseen) classes. Existing approaches attempt to regulate the prompt tuning process to balance BNT by appending constraints. However, imposed on the same target prompt, these constraints fail to fully avert the mutual exclusivity between the optimization directions for base and new. As a novel solution to this challenge, we propose the plug-and-play Dual-Prompt Collaboration (DPC) framework, the first that decoupling the optimization processes of base and new tasks at the prompt level. Specifically, we clone a learnable parallel prompt based on the backbone prompt, and introduce a variable Weighting-Decoupling framework to independently control the optimization directions of dual prompts specific to base or new tasks, thus avoiding the conflict in generalization. Meanwhile, we propose a Dynamic Hard Negative Optimizer, utilizing dual prompts to construct a more challenging optimization task on base classes for enhancement. For interpretability, we prove the feature channel invariance of the prompt vector during the optimization process, providing theoretical support for the Weighting-Decoupling of DPC. Extensive experiments on multiple backbones demonstrate that DPC can significantly improve base performance without introducing any external knowledge beyond the base classes, while maintaining generalization to new classes. Code is available at: https://github.com/JREion/DPC.
- Abstract(参考訳): ベース・ニュー・トレードオフ(BNT)問題は、CLIPベースのプロンプトチューニングの最適化中に普遍的に存在し、ベース(ターゲット)クラスでの連続的な微調整は、新しい(目に見えない)クラスでの一般化能力を同時に減少させる。
既存のアプローチでは、制約を付加することでBNTのバランスをとるために、プロンプトチューニングプロセスを規制しようと試みている。
しかし、同じターゲットプロンプトに課せられるこれらの制約は、ベースと新規の最適化方向間の相互排他性を完全に回避することができない。
この課題に対する新しい解決策として、我々は、ベースタスクと新しいタスクの最適化プロセスを即時レベルで分離する最初のDPC(Dual-Prompt Collaboration)フレームワークを提案する。
具体的には、バックボーンプロンプトに基づいて学習可能な並列プロンプトをクローンし、ベースまたは新しいタスクに特有のデュアルプロンプトの最適化方向を独立に制御する可変重み付きデカップリングフレームワークを導入し、一般化の衝突を避ける。
一方,2つのプロンプトを併用した動的ハード負最適化手法を提案する。
そこで我々は,DPCの重み付けデカップリングの理論的サポートを提供するため,最適化過程におけるプロンプトベクトルの特徴チャネル不変性を証明した。
複数のバックボーンに関する大規模な実験により、DPCは新しいクラスへの一般化を維持しながら、ベースクラス以外の外部知識を導入することなく、ベースパフォーマンスを著しく改善できることが示された。
コードは、https://github.com/JREion/DPC.comで入手できる。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - LW2G: Learning Whether to Grow for Prompt-based Continual Learning [15.766350352592331]
最近のPrompt-based Continual Learning (PCL) は、事前学習モデル(PTM)による顕著なパフォーマンスを実現している。
我々は,タスク間の相違に基づいて,成長するかどうか (LW2G) をtextbfLearn Wearn に送信するプラグインモジュールを提案する。
グラディエント・プロジェクションの継続学習にインスパイアされたLW2Gは、Hinder Forward Capability(HFC)と呼ばれるメトリクスを開発し、新しいタスクの学習に課される障害を測定する。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - A Generic First-Order Algorithmic Framework for Bi-Level Programming
Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。
LLS条件なしでBDAの収束を証明する新しい手法を導出する。
我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文 参考訳(メタデータ) (2020-06-07T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。