論文の概要: Few-shot Adaptation to Distribution Shifts By Mixing Source and Target Embeddings
- arxiv url: http://arxiv.org/abs/2305.14521v3
- Date: Wed, 29 May 2024 22:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-01 00:12:24.770082
- Title: Few-shot Adaptation to Distribution Shifts By Mixing Source and Target Embeddings
- Title(参考訳): 音源とターゲット埋め込みの混合による配電シフトへのわずかな適応
- Authors: Yihao Xue, Ali Payani, Yu Yang, Baharan Mirzasoleiman,
- Abstract要約: MixProは軽量でデータ効率のよいアプローチで、数ショットの適応が可能だ。
MixProはベースラインを最大7%上回り、2-4のターゲット例しかありません。
- 参考スコア(独自算出の注目度): 16.009815290729904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained machine learning models need to be adapted to distribution shifts when deployed in new target environments. When obtaining labeled data from the target distribution is expensive, few-shot adaptation with only a few examples from the target distribution becomes essential. In this work, we propose MixPro, a lightweight and highly data-efficient approach for few-shot adaptation. MixPro first generates a relatively large dataset by mixing (linearly combining) pre-trained embeddings of large source data with those of the few target examples. This process preserves important features of both source and target distributions, while mitigating the specific noise in the small target data. Then, it trains a linear classifier on the mixed embeddings to effectively adapts the model to the target distribution without overfitting the small target data. Theoretically, we demonstrate the advantages of MixPro over previous methods. Our experiments, conducted across various model architectures on 8 datasets featuring different types of distribution shifts, reveal that MixPro can outperform baselines by up to 7\%, with only 2-4 target examples.
- Abstract(参考訳): トレーニング済みの機械学習モデルは、新しいターゲット環境にデプロイされた場合、分散シフトに適応する必要がある。
対象分布からラベル付きデータを取得する場合、ターゲット分布からのサンプルを少数含む少数ショット適応が必須となる。
そこで本研究では,MixProを提案する。
MixProはまず、トレーニング済みの大規模なデータと、ターゲットとする少数のデータとを混合(直線的に組み合わせ)することによって、比較的大きなデータセットを生成する。
このプロセスは、小さなターゲットデータ中の特定のノイズを緩和しながら、ソースとターゲットの両方の重要な特徴を保存します。
そして、混合埋め込み上に線形分類器を訓練し、小さなターゲットデータを過度に適合させることなく、モデルを目標分布に効果的に適応させる。
理論的には、従来の方法よりもMixProの利点を実証する。
実験の結果,MixPro がベースラインを最大 7 % 上回る性能を示し,対象とする例は 2-4 例 に留まった。
関連論文リスト
- Distributionally Robust Safe Sample Elimination under Covariate Shift [16.85444622474742]
1つのトレーニングデータセットを使用して、わずかに異なるデータ分布をまたいだ複数のモデルをトレーニングする、機械学習のセットアップについて検討する。
分散ロバスト(DR)最適化と安全なサンプルスクリーニング(SSS)を組み合わせたDRSSS法を提案する。
この方法の主な利点は、縮小データセットでトレーニングされたモデルが、可能なすべての異なる環境において、フルデータセットでトレーニングされたモデルと同等に実行されることである。
論文 参考訳(メタデータ) (2024-06-10T01:46:42Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Restricted Generative Projection for One-Class Classification and
Anomaly Detection [31.173234437065464]
トレーニングデータの未知分布(正規分布)を既知の目標分布に変換するためのマッピングを学習する。
シンプルさは、配布から簡単にサンプルを採取できるようにすることです。
コンパクト性は、正規データと異常データとの判定境界が明確であることを保証することである。
その情報性は、変換されたデータが元のデータの重要な情報を確実に保持することである。
論文 参考訳(メタデータ) (2023-07-09T04:59:10Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Lightweight Conditional Model Extrapolation for Streaming Data under
Class-Prior Shift [27.806085423595334]
非定常ストリーミングデータを用いて学習する新しい方法であるLIMESを紹介する。
我々は、特定のデータ分布に対する特定の分類器を導出するモデルパラメータの集合を1つ学習する。
Twitterデータを用いた一連の模範的なタスクの実験では、LIMESが代替手法よりも高い精度を達成することが示された。
論文 参考訳(メタデータ) (2022-06-10T15:19:52Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On-target Adaptation [82.77980951331854]
ドメイン適応は、Emphtargetドメインでのトレーニングとテストの間のシフトを軽減することを目指している。
ほとんどの適応法は、ソースデータとターゲットデータに対する共同最適化によるソースデータに依存している。
対象データから純粋に表現を学習するオン・ターゲット適応による大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-02T17:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。