論文の概要: Pre-training Language Model as a Multi-perspective Course Learner
- arxiv url: http://arxiv.org/abs/2305.03981v1
- Date: Sat, 6 May 2023 09:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:17:22.252398
- Title: Pre-training Language Model as a Multi-perspective Course Learner
- Title(参考訳): マルチパースペクティブコース学習者としての事前学習言語モデル
- Authors: Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen
Huang, Furu Wei, Weiwei Deng and Qi Zhang
- Abstract要約: 本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
- 参考スコア(独自算出の注目度): 103.17674402415582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ELECTRA, the generator-discriminator pre-training framework, has achieved
impressive semantic construction capability among various downstream tasks.
Despite the convincing performance, ELECTRA still faces the challenges of
monotonous training and deficient interaction. Generator with only masked
language modeling (MLM) leads to biased learning and label imbalance for
discriminator, decreasing learning efficiency; no explicit feedback loop from
discriminator to generator results in the chasm between these two components,
underutilizing the course learning. In this study, a multi-perspective course
learning (MCL) method is proposed to fetch a many degrees and visual angles for
sample-efficient pre-training, and to fully leverage the relationship between
generator and discriminator. Concretely, three self-supervision courses are
designed to alleviate inherent flaws of MLM and balance the label in a
multi-perspective way. Besides, two self-correction courses are proposed to
bridge the chasm between the two encoders by creating a "correction notebook"
for secondary-supervision. Moreover, a course soups trial is conducted to solve
the "tug-of-war" dynamics problem of MCL, evolving a stronger pre-trained
model. Experimental results show that our method significantly improves
ELECTRA's average performance by 2.8% and 3.2% absolute points respectively on
GLUE and SQuAD 2.0 benchmarks, and overshadows recent advanced ELECTRA-style
models under the same settings. The pre-trained MCL model is available at
https://huggingface.co/McmanusChen/MCL-base.
- Abstract(参考訳): generator-discriminator事前トレーニングフレームワークであるelectraは、さまざまな下流タスクで印象的なセマンティック構築能力を達成している。
説得力のあるパフォーマンスにもかかわらず、ELECTRAは単調なトレーニングと不十分なインタラクションの課題に直面している。
マスキング言語モデリング(mlm)のみを持つジェネレータは、識別器のバイアス付き学習とラベル不均衡につながり、学習効率が低下する。
本研究では,多視点学習(MCL)手法を提案し,サンプル効率のよい事前学習のための様々な角度と視覚的角度を抽出し,ジェネレータと判別器の関係を十分に活用する。
具体的には、3つの自己超越コースは、MLMの固有の欠陥を緩和し、マルチパースペクティブな方法でラベルのバランスをとるように設計されている。
また、2つの自己修正コースが提案され、2つのエンコーダ間のキャズムを橋渡しし、二次的スーパービジョンのための「修正ノートブック」を作成する。
さらに、mclの「戦争状態」のダイナミクス問題を解くためにコーススープの試行が行われ、より強い事前訓練されたモデルが進化した。
実験結果から, GLUE と SQuAD 2.0 ベンチマークでは, ELECTRA の平均性能を2.8%, SQuAD 2.0 ベンチマークでは3.2%向上した。
事前トレーニングされたMCLモデルはhttps://huggingface.co/McmanusChen/MCL-baseで入手できる。
関連論文リスト
- Light-Weight Fault Tolerant Attention for Large Language Model Training [14.178223242134166]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。
LLMは、特にアテンション機構において故障の影響を受けやすいが、これはトランスフォーマーベースのLLMの重要な構成要素である。
我々は,LLMにおけるアテンション機構に適したアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。
論文 参考訳(メタデータ) (2024-10-15T15:52:45Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。
そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。
LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文 参考訳(メタデータ) (2024-06-19T13:38:34Z) - MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。