論文の概要: MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.12268v1
- Date: Sat, 13 Dec 2025 10:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.191922
- Title: MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models
- Title(参考訳): MetaTPT:ビジョンランゲージモデルのためのメタテストタイムプロンプトチューニング
- Authors: Yuqing Lei, Yingjun Du, Yawen Huang, Xiantong Zhen, Ling Shao,
- Abstract要約: テスト時間プロンプトチューニング(MetaTPT, Meta Test-Time Prompt Tuning)は、テスト時間プロンプトチューニングをガイドする自己教師付き補助タスクを学習するメタラーニングフレームワークである。
拡張学習と即時チューニングを結合することにより、MetaTPTはドメインシフトによるテスト時間適応を改善する。
- 参考スコア(独自算出の注目度): 62.20230218401528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) such as CLIP exhibit strong zero-shot generalization but remain sensitive to domain shifts at test time. Test-time prompt tuning (TPT) mitigates this issue by adapting prompts with fixed augmentations, which may falter in more challenging settings. In this work, we propose Meta Test-Time Prompt Tuning (MetaTPT), a meta-learning framework that learns a self-supervised auxiliary task to guide test-time prompt tuning. The auxiliary task dynamically learns parameterized augmentations for each sample, enabling more expressive transformations that capture essential features in target domains. MetaTPT adopts a dual-loop optimization paradigm: an inner loop learns a self-supervised task that generates informative views, while the outer loop performs prompt tuning by enforcing consistency across these views. By coupling augmentation learning with prompt tuning, MetaTPT improves test-time adaptation under domain shifts. Extensive experiments demonstrate that MetaTPT achieves state-of-the-art performance on domain generalization and cross-dataset benchmarks.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、強いゼロショットの一般化を示すが、テスト時にドメインシフトに敏感である。
テストタイムプロンプトチューニング(TPT)は、固定された拡張でプロンプトを適用することでこの問題を軽減する。
本研究では,メタテスト時プロンプトチューニング(MetaTPT)を提案する。MetaTPTは,テスト時プロンプトチューニングをガイドする自己教師付き補助タスクを学習するメタ学習フレームワークである。
補助タスクは、各サンプルのパラメータ化拡張を動的に学習し、ターゲットドメインの本質的な特徴をキャプチャするより表現力のある変換を可能にする。
MetaTPTはデュアルループ最適化のパラダイムを採用しており、内部ループは情報的ビューを生成する自己教師型タスクを学習し、外側ループはこれらのビューをまたいで一貫性を強制して即時チューニングを行う。
拡張学習と即時チューニングを結合することにより、MetaTPTはドメインシフトによるテスト時間適応を改善する。
広範囲な実験により、MetaTPTはドメインの一般化とデータセット間のベンチマークで最先端のパフォーマンスを達成している。
関連論文リスト
- IAP: Improving Continual Learning of Vision-Language Models via Instance-Aware Prompting [45.392113146092306]
マルチドメイン・タスク・インクリメンタル・ラーニングにおいて,多様なタスクに対するプロンプト・デザインを最適化する課題に取り組む。
我々のIA-GP戦略は,忘れを軽減しつつ,新しいタスクへの適応を促進する。
事例対応型クラス分散型プロンプト(IA-CDDP)は,各事例に対して正確なタスクラベル関連信頼スコアを決定することにより,タスク適応プロセスを改善する。
論文 参考訳(メタデータ) (2025-03-26T14:59:23Z) - Historical Test-time Prompt Tuning for Vision Foundation Models [99.96912440427192]
HisTPTは、学習したテストサンプルの有用な知識を記憶する、履歴的テストタイムプロンプトチューニング技術である。
HisTPTは、異なる視覚認識タスクを処理しながら、一貫した優れたプロンプトチューニング性能を達成する。
論文 参考訳(メタデータ) (2024-10-27T06:03:15Z) - Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Learning to Initialize: Can Meta Learning Improve Cross-task
Generalization in Prompt Tuning? [37.522581151997734]
タスク毎に追加のトークン列の埋め込みをチューニングするプロンプトチューニング(PT)は、数ショット学習において顕著なパフォーマンスを示している。
我々はメタプロンプト・チューニング(MPT)について研究し、メタ学習が(可能であれば)クロスタスクの一般化にどう役立つかを探る。
論文 参考訳(メタデータ) (2023-02-16T08:37:22Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。