論文の概要: OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2407.09498v1
- Date: Wed, 12 Jun 2024 18:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:38:25.566609
- Title: OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation
- Title(参考訳): OT-VP:テスト時間適応のための最適輸送誘導ビジュアルプロンプト
- Authors: Yunbei Zhang, Akshay Mehra, Jihun Hamm,
- Abstract要約: 視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。
我々のアプローチであるOptimal Transport-Guided Test-Time Visual Promptingは、テスト時の迅速な学習を活用してターゲットドメインとソースドメインを整合させることによって、これらの問題に対処する。
4つのプロンプトトークンが学習されただけで、OT-VPは、シングルソースおよびマルチソース設定の平均精度が5.0%と1.5%向上した。
- 参考スコア(独自算出の注目度): 8.425690424016986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision Transformers (ViTs) have demonstrated remarkable capabilities in learning representations, their performance is compromised when applied to unseen domains. Previous methods either engage in prompt learning during the training phase or modify model parameters at test time through entropy minimization. The former often overlooks unlabeled target data, while the latter doesn't fully address domain shifts. In this work, our approach, Optimal Transport-guided Test-Time Visual Prompting (OT-VP), handles these problems by leveraging prompt learning at test time to align the target and source domains without accessing the training process or altering pre-trained model parameters. This method involves learning a universal visual prompt for the target domain by optimizing the Optimal Transport distance. With just four prompt tokens learned, OT-VP achieves a $5.0\%$ and $1.5\%$ increase in averaged accuracy across single-source and multi-source settings on three benchmark datasets, which is $1.2\times$ and $1.5\times$ the improvement of the state-of-the-art method, respectively.
- Abstract(参考訳): 視覚変換器(ViT)は、表現の学習において顕著な能力を示してきたが、その性能は目に見えない領域に適用すると損なわれる。
以前の手法では、トレーニングフェーズ中に迅速な学習を行うか、エントロピーの最小化を通じてテスト時にモデルパラメータを変更するかのいずれかであった。
前者はラベルなしのターゲットデータを見落としていることが多いが、後者はドメインシフトを完全に解決していない。
本研究では, 最適輸送誘導型テストタイムビジュアル・プロンプティング(OT-VP)を用いて, テスト時の迅速な学習を活用して, トレーニングプロセスにアクセスしたり, 事前学習したモデルパラメータを変更することなく, ターゲットドメインとソースドメインを整列させることにより, これらの問題に対処する。
この方法は、最適輸送距離を最適化することにより、対象領域の普遍的な視覚的プロンプトを学習することを含む。
4つのプロンプトトークンが学習されただけで、OT-VPは3つのベンチマークデータセット上のシングルソースおよびマルチソース設定の平均精度を5.0\%と1.5\%に向上させ、それぞれ1.2\times$と1.5\times$の最先端メソッドの改善を達成した。
関連論文リスト
- EMPL: A novel Efficient Meta Prompt Learning Framework for Few-shot Unsupervised Domain Adaptation [22.586094394391747]
本稿では,FS-UDAのためのメタプロンプト学習フレームワークを提案する。
このフレームワークでは、事前訓練されたCLIPモデルを機能学習ベースモデルとして使用しています。
5-way 1-shotでは少なくとも15.4%,5-way 5-shotでは8.7%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-07-04T17:13:06Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - $P^{3}O$: Transferring Visual Representations for Reinforcement Learning
via Prompting [14.831261643044018]
本稿では,ターゲットからソース環境への視覚表現の転送を行う3段階DRLアルゴリズムであるPromptベースのP3O$を紹介した。
We implement $P3O$ and evaluation it on the OpenAI CarRacing video game。
論文 参考訳(メタデータ) (2023-03-22T08:14:23Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining
and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。
いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。
我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文 参考訳(メタデータ) (2021-01-29T18:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。