論文の概要: Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2503.08906v1
- Date: Tue, 11 Mar 2025 21:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:59.677511
- Title: Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation
- Title(参考訳): Prompt-OT:視覚言語モデル適応における知識保存のための最適輸送規則化パラダイム
- Authors: Xiwen Chen, Wenhui Zhu, Peijie Qiu, Hao Wang, Huayu Li, Haiyu Wu, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
- 参考スコア(独自算出の注目度): 5.296260279593993
- License:
- Abstract: Vision-language models (VLMs) such as CLIP demonstrate strong performance but struggle when adapted to downstream tasks. Prompt learning has emerged as an efficient and effective strategy to adapt VLMs while preserving their pre-trained knowledge. However, existing methods still lead to overfitting and degrade zero-shot generalization. To address this challenge, we propose an optimal transport (OT)-guided prompt learning framework that mitigates forgetting by preserving the structural consistency of feature distributions between pre-trained and fine-tuned models. Unlike conventional point-wise constraints, OT naturally captures cross-instance relationships and expands the feasible parameter space for prompt tuning, allowing a better trade-off between adaptation and generalization. Our approach enforces joint constraints on both vision and text representations, ensuring a holistic feature alignment. Extensive experiments on benchmark datasets demonstrate that our simple yet effective method can outperform existing prompt learning strategies in base-to-novel generalization, cross-dataset evaluation, and domain generalization without additional augmentation or ensemble techniques. The code is available at https://github.com/ChongQingNoSubway/Prompt-OT
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
プロンプト学習は、訓練済みの知識を保ちながら、VLMを適応するための効率的かつ効果的な戦略として登場した。
しかし、既存の手法は相変わらずゼロショットの一般化の過度な適合と分解に繋がる。
この課題に対処するために、事前訓練されたモデルと微調整されたモデル間の特徴分布の構造的整合性を維持することにより、忘れを緩和する最適トランスポート(OT)誘導学習フレームワークを提案する。
従来のポイントワイズ制約とは異なり、OTは自然にクロスインスタンス関係を捕捉し、プロンプトチューニングのための実現可能なパラメータ空間を拡張し、適応と一般化のトレードオフをより良くする。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
ベンチマークデータセットに対する大規模な実験により、我々の単純で効果的な手法は、ベース・ツー・ノーベルの一般化、クロス・データセットの評価、ドメインの一般化において、追加の強化やアンサンブル技術なしで既存の即時学習戦略より優れていることが示された。
コードはhttps://github.com/ChongQingNoSubway/Prompt-OTで公開されている。
関連論文リスト
- A Similarity Paradigm Through Textual Regularization Without Forgetting [17.251684463032433]
テキスト正規化による類似パラダイム(SPTR)と呼ばれる新しい手法を提案する。
SPTRは、手作りのプロンプトに基づく、分離不能なフレームワークである。
11のデータセットにまたがる4つの代表的なタスクは、SPTRが既存のプロンプト学習方法より優れていることを示している。
論文 参考訳(メタデータ) (2025-02-20T09:06:44Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。