Fugu-MT 論文翻訳(概要): A Universal Discriminator for Zero-Shot Generalization

論文の概要: A Universal Discriminator for Zero-Shot Generalization

arxiv url: http://arxiv.org/abs/2211.08099v2
Date: Tue, 6 Jun 2023 03:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 21:35:43.534899
Title: A Universal Discriminator for Zero-Shot Generalization
Title（参考訳）: ゼロショット一般化のための普遍判別器
Authors: Haike Xu, Zongyu Lin, Jing Zhou, Yanan Zheng, Zhilin Yang
Abstract要約: 生成モデリングは大規模な事前学習とゼロショットの一般化において支配的なアプローチである。我々は,多くのNLPタスクにおいて,識別的アプローチが生成的アプローチよりもかなり優れていることを示す。
参考スコア（独自算出の注目度）: 23.48188042332283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative modeling has been the dominant approach for large-scale pretraining and zero-shot generalization. In this work, we challenge this convention by showing that discriminative approaches perform substantially better than generative ones on a large number of NLP tasks. Technically, we train a single discriminator to predict whether a text sample comes from the true data distribution, similar to GANs. Since many NLP tasks can be formulated as selecting from a few options, we use this discriminator to predict the concatenation of input and which option has the highest probability of coming from the true data distribution. This simple formulation achieves state-of-the-art zero-shot results on the T0 benchmark, outperforming T0 by 16.0\%, 7.8\%, and 11.5\% respectively on different scales. In the finetuning setting, our approach also achieves new state-of-the-art results on a wide range of NLP tasks, with only 1/4 parameters of previous methods. Meanwhile, our approach requires minimal prompting efforts, which largely improves robustness and is essential for real-world applications. Furthermore, we also jointly train a generalized UD in combination with generative tasks, which maintains its advantage on discriminative tasks and simultaneously works on generative tasks.
Abstract（参考訳）: 生成モデリングは、大規模事前学習とゼロショット一般化の主要なアプローチである。本稿では,多数のnlpタスクにおいて,判別的アプローチが生成的アプローチよりもかなり優れていることを示すことにより,この慣例に挑戦する。技術的には、テキストサンプルが真のデータ分布から来ているかどうかを予測するために、単一の識別器を訓練する。多くのNLPタスクは、いくつかのオプションから選択できるので、この判別器を用いて入力の連結を予測し、どのオプションが真のデータ分布から来る確率が最も高いかを予測する。この単純な定式化は、T0ベンチマークで最先端のゼロショット結果を達成し、それぞれ異なるスケールでT0を16.0\%、7.8\%、11.5\%で上回る。また,本手法では,従来手法では1/4のパラメータしか持たなかった幅広いNLPタスクに対して,最新の結果が得られる。一方、当社のアプローチでは、ロバスト性を大幅に改善し、現実世界のアプリケーションに不可欠な、最小限のプロンプト努力が必要です。さらに, 汎用UDと生成タスクを併用して, 識別タスクの優位性を維持し, 生成タスクを同時に行うように訓練する。

関連論文リスト

Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文参考訳（メタデータ） (2024-05-05T00:08:00Z)
Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T07:09:56Z)
Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。 FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。 PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文参考訳（メタデータ） (2023-05-01T20:04:46Z)
Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。これまでにないNLPタスク(4,8,16)の学習に重点を置いている。このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文参考訳（メタデータ） (2022-10-31T16:06:48Z)
Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文参考訳（メタデータ） (2022-04-29T19:18:37Z)
Data Dependent Randomized Smoothing [127.34833801660233]
データ依存フレームワークは、3つのランダムな平滑化アプローチにシームレスに組み込むことができます。 CIFAR10とImageNetで0.5の半径の最強ベースラインの認定精度よりも9%と6%の改善が得られています。
論文参考訳（メタデータ） (2020-12-08T10:53:11Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。