論文の概要: Towards Compatible Fine-tuning for Vision-Language Model Updates
- arxiv url: http://arxiv.org/abs/2412.20895v1
- Date: Mon, 30 Dec 2024 12:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.769204
- Title: Towards Compatible Fine-tuning for Vision-Language Model Updates
- Title(参考訳): 視覚言語モデル更新のための互換性のある微調整に向けて
- Authors: Zhengbo Wang, Jian Liang, Lijun Sheng, Ran He, Zilei Wang, Tieniu Tan,
- Abstract要約: クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
- 参考スコア(独自算出の注目度): 114.25776195225494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: So far, efficient fine-tuning has become a popular strategy for enhancing the capabilities of foundation models on downstream tasks by learning plug-and-play modules. However, existing methods overlook a crucial issue: if the underlying foundation model is updated, are these plug-and-play modules still effective? In this paper, we first conduct a detailed analysis of various fine-tuning methods on the CLIP in terms of their compatibility with model updates. The study reveals that many high-performing fine-tuning methods fail to be compatible with the upgraded models. To address this, we propose a novel approach, Class-conditioned Context Optimization (ContCoOp), which integrates learnable prompts with class embeddings using an attention layer before inputting them into the text encoder. Consequently, the prompts can dynamically adapt to the changes in embedding space (due to model updates), ensuring continued effectiveness. Extensive experiments over 15 datasets show that our ContCoOp achieves the highest compatibility over the baseline methods, and exhibits robust out-of-distribution generalization.
- Abstract(参考訳): これまでのところ、効率的な微調整は、プラグイン・アンド・プレイモジュールを学習することで、下流タスクにおける基礎モデルの能力を向上するための一般的な戦略となっている。
しかし、既存のメソッドは重大な問題を見落としている。基礎となる基盤モデルが更新された場合、これらのプラグイン・アンド・プレイモジュールは依然として有効か?
本稿ではまず,モデル更新との互換性の観点から,CLIP上での様々な微調整手法の詳細な解析を行う。
この研究は、多くの高性能微調整手法がアップグレードされたモデルと互換性がないことを示した。
そこで本研究では,クラス条件付きコンテキスト最適化(ContCoOp)という,学習可能なプロンプトと注目層を用いたクラス埋め込みを統合してテキストエンコーダに入力する手法を提案する。
その結果、プロンプトは(モデル更新による)埋め込み空間の変化に動的に適応し、継続的な有効性を保証することができる。
15のデータセットに対する大規模な実験により、私たちのContCoOpはベースラインメソッドよりも高い互換性を達成し、ロバストなアウト・オブ・ディストリビューションの一般化を示します。
関連論文リスト
- Bayesian Test-Time Adaptation for Vision-Language Models [51.93247610195295]
CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。
我々は、クラス埋め込みを継続的に更新して妥当性を適応させる新しいアプローチ、textbfBayesian textbfClass textbfAdaptation (BCA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:42:11Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Task-Specific Adaptation with Restricted Model Access [23.114703555189937]
モデルアーキテクチャと重みがまだ隠されている"Gray-box"微調整アプローチは、勾配伝播のみを可能にする。
モデル入力と出力の2つの軽量な学習可能なモジュールを用いて、新しいタスクに適応する、シンプルで効果的なフレームワークを新たに導入する。
我々は,テキスト画像アライメント,テキスト映像アライメント,スケッチ画像アライメントなどのベンチマークで,複数のバックボーンにまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-02T13:29:44Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - LM-Cocktail: Resilient Tuning of Language Models via Model Merging [8.479219617263498]
本稿では,細調整モデルが汎用的な視点で弾力性を維持することができるLM-Cocktailを提案する。
本手法はモデルマージの形で実施する。
LLamaモデルとBGEモデルを用いて、一般的なベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:14:54Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - On-the-Fly Adaptation of Source Code Models using Meta-Learning [28.98699307030983]
文脈適応の問題はメタラーニングの問題である。
我々は、欠落したトークンの予測を改善するために、ファイル内の情報から最もよく学習できるベースソースコードモデルを訓練する。
大規模なJava GitHubコーパスの実験において、パフォーマンスの改善を実証した。
論文 参考訳(メタデータ) (2020-03-26T07:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。