論文の概要: AUG-FedPrompt: Practical Few-shot Federated NLP with Data-augmented
Prompts
- arxiv url: http://arxiv.org/abs/2212.00192v1
- Date: Thu, 1 Dec 2022 00:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:54:06.955465
- Title: AUG-FedPrompt: Practical Few-shot Federated NLP with Data-augmented
Prompts
- Title(参考訳): AUG-FedPrompt: データ強化プロンプットによる実践的FwショットフェデレーションNLP
- Authors: Dongqi Cai, Yaozong Wu, Haitao Yuan, Shangguang Wang, Felix Xiaozhu
Lin, Mengwei Xu
- Abstract要約: ダウンストリームタスクのための微調整済みの事前トレーニングモデルでは、プライベートとラベル付きの両方の膨大な量のデータが必要になることが多い。
AUG-FedPromptは,データ拡張のために大量のラベルのないデータを注意深く注釈付けする,プロンプトベースのフェデレート学習アルゴリズムである。
AUG-FedPromptはフルセットの微調整と同等に動作し、初期ラベル付きデータはほとんどない。
- 参考スコア(独自算出の注目度): 6.36880527420795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based pre-trained models have become the de-facto solution for
NLP tasks. Fine-tuning such pre-trained models for downstream tasks often
requires tremendous amount of data that is both private and labeled. However,
in reality: 1) such private data cannot be collected and is distributed across
mobile devices, and 2) well-curated labeled data is scarce. To tackle those
issues, we first define a data generator for federated few-shot learning tasks,
which encompasses the quantity and distribution of scarce labeled data in a
realistic setting. Then we propose AUG-FedPrompt, a prompt-based federated
learning algorithm that carefully annotates abundant unlabeled data for data
augmentation. AUG-FedPrompt can perform on par with full-set fine-tuning with
very few initial labeled data.
- Abstract(参考訳): トランスフォーマーベースの事前学習モデルは、NLPタスクのデファクトソリューションとなっている。
ダウンストリームタスクのためにトレーニング済みのモデルを微調整するには、プライベートかつラベル付けされた大量のデータが必要になることが多い。
しかし、実際には
1)このようなプライベートデータは収集できず,モバイルデバイス間で配布される。
2) 精度の高いラベル付きデータは少ない。
これらの問題に対処するため、まず、少ないラベル付きデータの量と分布を現実的な設定で包含する、フェデレート・マイズショット学習タスクのためのデータジェネレータを定義する。
次に、データ拡張のために、豊富なラベルのないデータを慎重に注釈付けする、プロンプトベースのフェデレート学習アルゴリズムであるAUG-FedPromptを提案する。
AUG-FedPromptはフルセットの微調整と同等に動作し、初期ラベル付きデータはほとんどない。
関連論文リスト
- FedBiP: Heterogeneous One-Shot Federated Learning with Personalized Latent Diffusion Models [37.76576626976729]
特別な分散機械学習パラダイムであるOne-Shot Federated Learning (OSFL)が最近注目を集めている。
現在の手法では,リアルタイムOSFLシステムに適用する場合,クライアントデータの不均一性やデータ量制限による課題に直面している。
本稿では,事前学習したLCMをインスタンスレベルと概念レベルでパーソナライズするFederated Bi-Level Personalization (FedBiP)を提案する。
論文 参考訳(メタデータ) (2024-10-07T07:45:18Z) - FedAnchor: Enhancing Federated Semi-Supervised Learning with Label
Contrastive Loss for Unlabeled Clients [19.3885479917635]
Federated Learning(FL)は、デバイス間で共有されたグローバルモデルの協調トレーニングを促進する分散学習パラダイムである。
本稿では,サーバ上のラベル付きアンカーデータにのみ訓練された分類ヘッドと組み合わせて,アンカーヘッドと呼ばれるユニークな二重ヘッド構造を導入する,革新的なFSSL手法であるFedAnchorを提案する。
提案手法は, 高信頼度モデル予測サンプルに基づいて, 疑似ラベル技術に係わる検証バイアスと過度に適合する問題を緩和する。
論文 参考訳(メタデータ) (2024-02-15T18:48:21Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。