論文の概要: A Universal Discriminator for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2211.08099v1
- Date: Tue, 15 Nov 2022 12:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:36:56.219214
- Title: A Universal Discriminator for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための普遍判別器
- Authors: Haike Xu, Zongyu Lin, Jing Zhou, Yanan Zheng, Zhilin Yang
- Abstract要約: 生成モデリングは大規模な事前学習とゼロショットの一般化において支配的なアプローチである。
我々は,多くのNLPタスクにおいて,識別的アプローチが生成的アプローチよりもかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 23.48188042332283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling has been the dominant approach for large-scale
pretraining and zero-shot generalization. In this work, we challenge this
convention by showing that discriminative approaches perform substantially
better than generative ones on a large number of NLP tasks. Technically, we
train a single discriminator to predict whether a text sample comes from the
true data distribution, similar to GANs. Since many NLP tasks can be formulated
as selecting from a few options, we use this discriminator to predict the
option with the highest probability. This simple formulation achieves
state-of-the-art zero-shot results on the T0 benchmark, outperforming T0 by
16.0\%, 7.8\%, and 11.5\% respectively on different scales. In the finetuning
setting, our approach also achieves new state-of-the-art results on a wide
range of NLP tasks, with only 1/4 parameters of previous methods. Meanwhile,
our approach requires minimal prompting efforts, which largely improves
robustness and is essential for real-world applications. Furthermore, we also
jointly train a generalized UD in combination with generative tasks, which
maintains its advantage on discriminative tasks and simultaneously works on
generative tasks.
- Abstract(参考訳): 生成モデリングは、大規模事前学習とゼロショット一般化の主要なアプローチである。
本稿では,多数のnlpタスクにおいて,判別的アプローチが生成的アプローチよりもかなり優れていることを示すことにより,この慣例に挑戦する。
技術的には、テキストサンプルが真のデータ分布から来ているかどうかを予測するために、単一の識別器を訓練する。
多くのNLPタスクは、いくつかのオプションから選択できるので、この判別器を用いて、最も高い確率でオプションを予測する。
この単純な定式化は、T0ベンチマークで最先端のゼロショット結果を達成し、それぞれ異なるスケールでT0を16.0\%、7.8\%、11.5\%で上回る。
また,本手法では,従来手法では1/4のパラメータしか持たなかった幅広いNLPタスクに対して,最新の結果が得られる。
一方、当社のアプローチでは、ロバスト性を大幅に改善し、現実世界のアプリケーションに不可欠な、最小限のプロンプト努力が必要です。
さらに, 汎用UDと生成タスクを併用して, 識別タスクの優位性を維持し, 生成タスクを同時に行うように訓練する。
関連論文リスト
- Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - DOS: Diverse Outlier Sampling for Out-of-Distribution Detection [18.964462007139055]
我々は,OOD検出性能の外れ値のサンプリングには多様性が重要であることを示した。
本稿では,多種多様かつ情報的外乱を選択するためにDOS (Diverse Outlier Smpling) という,単純で斬新なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-03T07:17:48Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - Out-of-distribution Few-shot Learning For Edge Devices without Model
Fine-tuning [10.422316867474681]
エッジデバイス上でパーソナライズされたユーザエクスペリエンスを実現するための,有望なテクニックは少ない。
本稿では,バックプロパゲーションを伴わないディープニューラルネットワークの効率的なタスク認識適応を可能にする,タスク認識正規化(TANO)と呼ばれるプラグイン・アンド・プレイモジュールを提案する。
TANOは、正規化統計量の安定だがタスク固有の推定を提供し、分配ギャップを埋め、効率的なモデル適応を実現する。
論文 参考訳(メタデータ) (2023-04-13T07:33:22Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Data Dependent Randomized Smoothing [127.34833801660233]
データ依存フレームワークは、3つのランダムな平滑化アプローチにシームレスに組み込むことができます。
CIFAR10とImageNetで0.5の半径の最強ベースラインの認定精度よりも9%と6%の改善が得られています。
論文 参考訳(メタデータ) (2020-12-08T10:53:11Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。