Fugu-MT 論文翻訳(概要): A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models

論文の概要: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2312.12730v1
Date: Wed, 20 Dec 2023 02:58:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 17:03:44.883274
Title: A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models
Title（参考訳）: 大型ビジョンランゲージモデルのFew-Shot適応について
Authors: Julio Silva-Rodriguez and Sina Hajimiri and Ismail Ben Ayed and Jose Dolz
Abstract要約: 現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
参考スコア（独自算出の注目度）: 19.20874993309959
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient transfer learning (ETL) is receiving increasing attention to adapt large pre-trained language-vision models on downstream tasks with a few labeled samples. While significant progress has been made, we reveal that state-of-the-art ETL approaches exhibit strong performance only in narrowly-defined experimental setups, and with a careful adjustment of hyperparameters based on a large corpus of labeled samples. In particular, we make two interesting, and surprising empirical observations. First, to outperform a simple Linear Probing baseline, these methods require to optimize their hyper-parameters on each target task. And second, they typically underperform -- sometimes dramatically -- standard zero-shot predictions in the presence of distributional drifts. Motivated by the unrealistic assumptions made in the existing literature, i.e., access to a large validation set and case-specific grid-search for optimal hyperparameters, we propose a novel approach that meets the requirements of real-world scenarios. More concretely, we introduce a CLass-Adaptive linear Probe (CLAP) objective, whose balancing term is optimized via an adaptation of the general Augmented Lagrangian method tailored to this context. We comprehensively evaluate CLAP on a broad span of datasets and scenarios, demonstrating that it consistently outperforms SoTA approaches, while yet being a much more efficient alternative.
Abstract（参考訳）: 効率的な伝達学習(ETL)が注目され、いくつかのラベル付きサンプルを用いて、下流タスクに大規模な事前学習言語ビジョンモデルを適用するようになっている。有意な進展がみられたが,etlアプローチは限定的な実験でのみ強力な性能を示し,ラベル付きサンプルの大規模なコーパスに基づいてハイパーパラメータを注意深く調整した。特に、2つの興味深い、驚くべき経験的な観察を行います。まず、単純な線形探索ベースラインを上回り、これらの手法は各タスクのハイパーパラメータを最適化する必要がある。そして第2に、分布ドリフトの存在下での標準的なゼロショット予測を(時には劇的に)過小評価する。既存の文献における非現実的な仮定、すなわち、最適なハイパーパラメーターに対する大規模な検証セットとケース固有のグリッド探索に動機付けられ、現実のシナリオの要件を満たす新しいアプローチを提案する。より具体的には、この文脈に合わせて拡張ラグランジアン法を適応させることにより、バランス項を最適化するCLass-Adaptive linear Probe (CLAP) の目的を導入する。 CLAPを広範囲のデータセットとシナリオで総合的に評価し、SoTAアプローチを一貫して上回りながら、はるかに効率的な代替手段であることを実証した。

関連論文リスト

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文参考訳（メタデータ） (2026-02-28T05:41:57Z)
How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文参考訳（メタデータ） (2026-01-08T15:55:13Z)
Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification [2.503562746177713]
微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
論文参考訳（メタデータ） (2025-11-23T05:23:21Z)
Informed Initialization for Bayesian Optimization and Active Learning [13.105080815344174]
本稿では,情報理論の原理を用いたハイパーパラメータ学習と予測不確実性低減のバランスをとる新しい獲得戦略を提案する。本研究は,アクティブラーニングと数発のBOの広範な実験を通して,その効果を実証する。
論文参考訳（メタデータ） (2025-10-27T15:05:12Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios [66.57089888022414]
DenseWorldは、緊急な現実世界のアプリケーションに対応する、25の密集した予測タスクの幅広いセットにまたがるベンチマークである。次に,DenseDiTを提案する。DenseDiTは,生成モデルの視覚的先行性を利用して,統合された戦略により,多種多様な実世界の密集予測タスクを実行する。 DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
論文参考訳（メタデータ） (2025-06-25T09:40:50Z)
Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。 LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。既存のアプローチ、例えば、コンテキスト内学習や。 PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文参考訳（メタデータ） (2025-05-25T11:54:23Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文参考訳（メタデータ） (2025-04-16T21:19:09Z)
Online Gaussian Test-Time Adaptation of Vision-Language Models [13.90714913643503]
オンラインガウス適応(英語: Online Gaussian Adaptation, OGA)は、ガウス分布を用いた視覚的特徴の可能性をモデル化する新しい手法である。 OGAは、ほとんどのデータセットや実行で最先端のメソッドよりも優れています。実験により,全OTTA法において,各データセットに対して平均3回以上の平均動作性能を示すOTTA評価プロトコルが不十分であることが判明した。
論文参考訳（メタデータ） (2025-01-08T08:49:52Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-26T04:33:13Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文参考訳（メタデータ） (2023-05-05T15:33:39Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-29T04:10:04Z)
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-11T03:37:57Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文参考訳（メタデータ） (2022-01-15T00:29:16Z)
Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文参考訳（メタデータ） (2021-10-15T11:46:14Z)
Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。 P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文参考訳（メタデータ） (2020-07-20T19:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。