論文の概要: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.12730v2
- Date: Mon, 25 Mar 2024 18:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 22:13:20.051433
- Title: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models
- Title(参考訳): 大型ビジョンランゲージモデルのFew-Shot適応について
- Authors: Julio Silva-Rodríguez, Sina Hajimiri, Ismail Ben Ayed, Jose Dolz,
- Abstract要約: 現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
- 参考スコア(独自算出の注目度): 19.17722702457403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient transfer learning (ETL) is receiving increasing attention to adapt large pre-trained language-vision models on downstream tasks with a few labeled samples. While significant progress has been made, we reveal that state-of-the-art ETL approaches exhibit strong performance only in narrowly-defined experimental setups, and with a careful adjustment of hyperparameters based on a large corpus of labeled samples. In particular, we make two interesting, and surprising empirical observations. First, to outperform a simple Linear Probing baseline, these methods require to optimize their hyper-parameters on each target task. And second, they typically underperform -- sometimes dramatically -- standard zero-shot predictions in the presence of distributional drifts. Motivated by the unrealistic assumptions made in the existing literature, i.e., access to a large validation set and case-specific grid-search for optimal hyperparameters, we propose a novel approach that meets the requirements of real-world scenarios. More concretely, we introduce a CLass-Adaptive linear Probe (CLAP) objective, whose balancing term is optimized via an adaptation of the general Augmented Lagrangian method tailored to this context. We comprehensively evaluate CLAP on a broad span of datasets and scenarios, demonstrating that it consistently outperforms SoTA approaches, while yet being a much more efficient alternative.
- Abstract(参考訳): 効率的な伝達学習(ETL)が注目され、いくつかのラベル付きサンプルを用いて、下流タスクに大規模な事前学習言語ビジョンモデルを適用するようになっている。
現状のETL手法は, 厳密に定義された実験装置でのみ高い性能を示し, ラベル付きサンプルの大きなコーパスに基づいて, ハイパーパラメータを慎重に調整した。
特に、2つの興味深い、驚くべき経験的な観察を行います。
まず、単純な線形探索ベースラインを上回り、これらの手法は各タスクのハイパーパラメータを最適化する必要がある。
第2に、通常は、分布流の存在下での標準のゼロショット予測を(時には劇的に)過小評価する。
既存の文献における非現実的な仮定、すなわち、最適なハイパーパラメーターに対する大規模な検証セットとケース固有のグリッド探索へのアクセスに動機付けられ、現実のシナリオの要件を満たす新しいアプローチを提案する。
より具体的には、この文脈に合わせて一般化されたラグランジアン法を適応させることにより、バランス項を最適化するCLass-Adaptive linear Probe (CLAP) の目的を導入する。
CLAPを広範囲のデータセットとシナリオで総合的に評価し、SoTAアプローチを一貫して上回りながら、はるかに効率的な代替手段であることを実証した。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。
我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。
提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文 参考訳(メタデータ) (2022-01-15T00:29:16Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma
Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。
P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。
標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文 参考訳(メタデータ) (2020-07-20T19:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。