論文の概要: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.12730v1
- Date: Wed, 20 Dec 2023 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:03:44.883274
- Title: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models
- Title(参考訳): 大型ビジョンランゲージモデルのFew-Shot適応について
- Authors: Julio Silva-Rodriguez and Sina Hajimiri and Ismail Ben Ayed and Jose
Dolz
- Abstract要約: 現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
- 参考スコア(独自算出の注目度): 19.20874993309959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient transfer learning (ETL) is receiving increasing attention to adapt
large pre-trained language-vision models on downstream tasks with a few labeled
samples. While significant progress has been made, we reveal that
state-of-the-art ETL approaches exhibit strong performance only in
narrowly-defined experimental setups, and with a careful adjustment of
hyperparameters based on a large corpus of labeled samples. In particular, we
make two interesting, and surprising empirical observations. First, to
outperform a simple Linear Probing baseline, these methods require to optimize
their hyper-parameters on each target task. And second, they typically
underperform -- sometimes dramatically -- standard zero-shot predictions in the
presence of distributional drifts. Motivated by the unrealistic assumptions
made in the existing literature, i.e., access to a large validation set and
case-specific grid-search for optimal hyperparameters, we propose a novel
approach that meets the requirements of real-world scenarios. More concretely,
we introduce a CLass-Adaptive linear Probe (CLAP) objective, whose balancing
term is optimized via an adaptation of the general Augmented Lagrangian method
tailored to this context. We comprehensively evaluate CLAP on a broad span of
datasets and scenarios, demonstrating that it consistently outperforms SoTA
approaches, while yet being a much more efficient alternative.
- Abstract(参考訳): 効率的な伝達学習(ETL)が注目され、いくつかのラベル付きサンプルを用いて、下流タスクに大規模な事前学習言語ビジョンモデルを適用するようになっている。
有意な進展がみられたが,etlアプローチは限定的な実験でのみ強力な性能を示し,ラベル付きサンプルの大規模なコーパスに基づいてハイパーパラメータを注意深く調整した。
特に、2つの興味深い、驚くべき経験的な観察を行います。
まず、単純な線形探索ベースラインを上回り、これらの手法は各タスクのハイパーパラメータを最適化する必要がある。
そして第2に、分布ドリフトの存在下での標準的なゼロショット予測を(時には劇的に)過小評価する。
既存の文献における非現実的な仮定、すなわち、最適なハイパーパラメーターに対する大規模な検証セットとケース固有のグリッド探索に動機付けられ、現実のシナリオの要件を満たす新しいアプローチを提案する。
より具体的には、この文脈に合わせて拡張ラグランジアン法を適応させることにより、バランス項を最適化するCLass-Adaptive linear Probe (CLAP) の目的を導入する。
CLAPを広範囲のデータセットとシナリオで総合的に評価し、SoTAアプローチを一貫して上回りながら、はるかに効率的な代替手段であることを実証した。
関連論文リスト
- Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。
我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。
提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文 参考訳(メタデータ) (2022-01-15T00:29:16Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma
Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。
P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。
標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文 参考訳(メタデータ) (2020-07-20T19:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。