論文の概要: Self-Supervised Convolutional Visual Prompts
- arxiv url: http://arxiv.org/abs/2303.00198v1
- Date: Wed, 1 Mar 2023 03:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:10:26.433078
- Title: Self-Supervised Convolutional Visual Prompts
- Title(参考訳): 自己教師付き畳み込み視覚プロンプト
- Authors: Yun-Yun Tsai, Chengzhi Mao, Yow-Kuan Lin, Junfeng Yang
- Abstract要約: 機械学習モデルは、しばしばアウト・オブ・ディストリビューション(OOD)のサンプルで失敗する。
視覚プロンプトは、大規模視覚モデルのための入力空間における軽量適応法として出現する。
ラベルのないテスト時間適応のための畳み込み視覚的プロンプトを提案する。
- 参考スコア(独自算出の注目度): 15.551777596245556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models often fail on out-of-distribution (OOD) samples.
Visual prompts emerge as a light-weight adaptation method in input space for
large-scale vision models. Existing vision prompts optimize a high-dimensional
additive vector and require labeled data on training. However, we find this
paradigm fails on test-time adaptation when labeled data is unavailable, where
the high-dimensional visual prompt overfits to the self-supervised objective.
We present convolutional visual prompts for test-time adaptation without
labels. Our convolutional prompt is structured and requires fewer trainable
parameters (less than 1 % parameters of standard visual prompts). Extensive
experiments on a wide variety of OOD recognition tasks show that our approach
is effective, improving robustness by up to 5.87 % over a number of large-scale
model architectures.
- Abstract(参考訳): 機械学習モデルは、しばしばout-of-distribution(ood)サンプルで失敗する。
大規模視覚モデルのための入力空間における軽量適応法として視覚プロンプトが出現する。
既存のビジョンは、高次元の加算ベクトルを最適化し、トレーニングにラベル付きデータを必要とする。
しかし、このパラダイムはラベル付きデータが利用できない場合にテスト時間適応に失敗し、高次元の視覚的プロンプトは自己監督対象に過度に適合する。
ラベルのないテスト時間適応のための畳み込み視覚プロンプトを提案する。
我々の畳み込みプロンプトは構造化されており、トレーニング可能なパラメータが少ない(標準的な視覚プロンプトのパラメータが1%未満)。
多様なOOD認識タスクに関する大規模な実験により、我々のアプローチが効果的であることを示し、多数の大規模モデルアーキテクチャに対して最大5.87 %の堅牢性向上を実現している。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。