論文の概要: OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2407.09498v1
- Date: Wed, 12 Jun 2024 18:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:38:25.566609
- Title: OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation
- Title(参考訳): OT-VP:テスト時間適応のための最適輸送誘導ビジュアルプロンプト
- Authors: Yunbei Zhang, Akshay Mehra, Jihun Hamm,
- Abstract要約: 視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。
我々のアプローチであるOptimal Transport-Guided Test-Time Visual Promptingは、テスト時の迅速な学習を活用してターゲットドメインとソースドメインを整合させることによって、これらの問題に対処する。
4つのプロンプトトークンが学習されただけで、OT-VPは、シングルソースおよびマルチソース設定の平均精度が5.0%と1.5%向上した。
- 参考スコア(独自算出の注目度): 8.425690424016986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision Transformers (ViTs) have demonstrated remarkable capabilities in learning representations, their performance is compromised when applied to unseen domains. Previous methods either engage in prompt learning during the training phase or modify model parameters at test time through entropy minimization. The former often overlooks unlabeled target data, while the latter doesn't fully address domain shifts. In this work, our approach, Optimal Transport-guided Test-Time Visual Prompting (OT-VP), handles these problems by leveraging prompt learning at test time to align the target and source domains without accessing the training process or altering pre-trained model parameters. This method involves learning a universal visual prompt for the target domain by optimizing the Optimal Transport distance. With just four prompt tokens learned, OT-VP achieves a $5.0\%$ and $1.5\%$ increase in averaged accuracy across single-source and multi-source settings on three benchmark datasets, which is $1.2\times$ and $1.5\times$ the improvement of the state-of-the-art method, respectively.
- Abstract(参考訳): 視覚変換器(ViT)は、表現の学習において顕著な能力を示してきたが、その性能は目に見えない領域に適用すると損なわれる。
以前の手法では、トレーニングフェーズ中に迅速な学習を行うか、エントロピーの最小化を通じてテスト時にモデルパラメータを変更するかのいずれかであった。
前者はラベルなしのターゲットデータを見落としていることが多いが、後者はドメインシフトを完全に解決していない。
本研究では, 最適輸送誘導型テストタイムビジュアル・プロンプティング(OT-VP)を用いて, テスト時の迅速な学習を活用して, トレーニングプロセスにアクセスしたり, 事前学習したモデルパラメータを変更することなく, ターゲットドメインとソースドメインを整列させることにより, これらの問題に対処する。
この方法は、最適輸送距離を最適化することにより、対象領域の普遍的な視覚的プロンプトを学習することを含む。
4つのプロンプトトークンが学習されただけで、OT-VPは3つのベンチマークデータセット上のシングルソースおよびマルチソース設定の平均精度を5.0\%と1.5\%に向上させ、それぞれ1.2\times$と1.5\times$の最先端メソッドの改善を達成した。
関連論文リスト
- Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction [22.868597464136787]
本稿では,画像レベルのプロンプトに最小限のトレーニング可能なパラメータを格納し,入力のより空間的な情報を予約する,Sparse Visual Domain Prompts (SVDP) アプローチを提案する。
提案手法は, セマンティックセグメンテーションと深度推定の両タスクにおいて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T06:26:55Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Visual Prompt Tuning for Test-time Domain Adaptation [48.16620171809511]
本稿では,2つの重要な要素を持つデータ効率・プロンプト・チューニング(DePT)と呼ばれる簡単なレシピを提案する。
このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。
パラメータがはるかに少ないため、DePTは主要な適応ベンチマークにおける最先端のパフォーマンスだけでなく、優れたデータ効率を示す。
論文 参考訳(メタデータ) (2022-10-10T16:45:13Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。