論文の概要: Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data
- arxiv url: http://arxiv.org/abs/2302.00674v3
- Date: Thu, 4 May 2023 02:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:11:52.047657
- Title: Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data
- Title(参考訳): 補助データの探索と活用による少数ショット一般化の改善
- Authors: Alon Albalak, Colin Raffel, William Yang Wang
- Abstract要約: 補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
- 参考スコア(独自算出の注目度): 103.37083391331718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning is valuable in many real-world applications, but learning a
generalizable model without overfitting to the few labeled datapoints is
challenging. In this work, we focus on Few-shot Learning with Auxiliary Data
(FLAD), a training paradigm that assumes access to auxiliary data during
few-shot learning in hopes of improving generalization. Previous works have
proposed automated methods for mixing auxiliary and target data, but these
methods typically scale linearly (or worse) with the number of auxiliary
datasets, limiting their practicality. In this work we relate FLAD to the
explore-exploit dilemma that is central to the multi-armed bandit setting and
derive algorithms whose computational complexity is independent of the number
of auxiliary datasets, allowing us to scale to 100x more auxiliary datasets
than prior methods. We propose two algorithms -- EXP3-FLAD and UCB1-FLAD -- and
compare them with prior FLAD methods that either explore or exploit, finding
that the combination of exploration and exploitation is crucial. Through
extensive experimentation we find that our methods outperform all pre-existing
FLAD methods by 4% and lead to the first 3 billion parameter language models
that outperform the 175 billion parameter GPT-3. Overall, our work suggests
that the discovery of better, more efficient mixing strategies for FLAD may
provide a viable path towards substantially improving generalization in
few-shot learning.
- Abstract(参考訳): しかし、ラベル付きデータポイントに過度に適合することなく、一般化可能なモデルを学習することは困難である。
本研究では,補足データ(flad: few-shot learning with auxiliary data)に着目し,補足データへのアクセスを想定した学習パラダイムを提案する。
従来の研究では、補助データと目標データを混合する自動化手法が提案されていたが、これらの手法は通常、補助データセットの数と線形に(あるいはそれ以上)スケールし、実用性を制限する。
本研究では、FLADとマルチアームバンディット設定の中心となる探索探索ジレンマを関連付け、計算複雑性が補助データセットの数に依存しないアルゴリズムを導出し、従来の手法よりも100倍の補助データセットにスケールできるようにする。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つで,従来の FLAD メソッドと比較し,探索と利用の組み合わせが不可欠であることを確認した。
実験により,提案手法は既存のFLAD法を4%上回る結果となり,最初の30億のパラメータ言語モデルが1億7500億のパラメータ GPT-3 を上回った。
全体として、FLADのより優れた、より効率的な混合戦略の発見は、数発の学習における一般化を著しく改善するための有効な道筋となることを示唆している。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Distributed Gradient Descent for Functional Learning [9.81463654618448]
我々は,カーネルヒルベルト空間を再現するフレームワークにおいて,多数のローカルマシン(プロセッサ)にまたがる関数データに取り組むために,分散勾配勾配関数学習(DGDFL)アルゴリズムを提案する。
軽度条件下では、DGDFLの信頼に基づく最適学習速度は、機能回帰における以前の研究で被った正則性指数の飽和境界を伴わずに得られる。
論文 参考訳(メタデータ) (2023-05-12T12:15:42Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。