論文の概要: Pre-training Language Model as a Multi-perspective Course Learner
- arxiv url: http://arxiv.org/abs/2305.03981v1
- Date: Sat, 6 May 2023 09:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:17:22.252398
- Title: Pre-training Language Model as a Multi-perspective Course Learner
- Title(参考訳): マルチパースペクティブコース学習者としての事前学習言語モデル
- Authors: Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen
Huang, Furu Wei, Weiwei Deng and Qi Zhang
- Abstract要約: 本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
- 参考スコア(独自算出の注目度): 103.17674402415582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ELECTRA, the generator-discriminator pre-training framework, has achieved
impressive semantic construction capability among various downstream tasks.
Despite the convincing performance, ELECTRA still faces the challenges of
monotonous training and deficient interaction. Generator with only masked
language modeling (MLM) leads to biased learning and label imbalance for
discriminator, decreasing learning efficiency; no explicit feedback loop from
discriminator to generator results in the chasm between these two components,
underutilizing the course learning. In this study, a multi-perspective course
learning (MCL) method is proposed to fetch a many degrees and visual angles for
sample-efficient pre-training, and to fully leverage the relationship between
generator and discriminator. Concretely, three self-supervision courses are
designed to alleviate inherent flaws of MLM and balance the label in a
multi-perspective way. Besides, two self-correction courses are proposed to
bridge the chasm between the two encoders by creating a "correction notebook"
for secondary-supervision. Moreover, a course soups trial is conducted to solve
the "tug-of-war" dynamics problem of MCL, evolving a stronger pre-trained
model. Experimental results show that our method significantly improves
ELECTRA's average performance by 2.8% and 3.2% absolute points respectively on
GLUE and SQuAD 2.0 benchmarks, and overshadows recent advanced ELECTRA-style
models under the same settings. The pre-trained MCL model is available at
https://huggingface.co/McmanusChen/MCL-base.
- Abstract(参考訳): generator-discriminator事前トレーニングフレームワークであるelectraは、さまざまな下流タスクで印象的なセマンティック構築能力を達成している。
説得力のあるパフォーマンスにもかかわらず、ELECTRAは単調なトレーニングと不十分なインタラクションの課題に直面している。
マスキング言語モデリング(mlm)のみを持つジェネレータは、識別器のバイアス付き学習とラベル不均衡につながり、学習効率が低下する。
本研究では,多視点学習(MCL)手法を提案し,サンプル効率のよい事前学習のための様々な角度と視覚的角度を抽出し,ジェネレータと判別器の関係を十分に活用する。
具体的には、3つの自己超越コースは、MLMの固有の欠陥を緩和し、マルチパースペクティブな方法でラベルのバランスをとるように設計されている。
また、2つの自己修正コースが提案され、2つのエンコーダ間のキャズムを橋渡しし、二次的スーパービジョンのための「修正ノートブック」を作成する。
さらに、mclの「戦争状態」のダイナミクス問題を解くためにコーススープの試行が行われ、より強い事前訓練されたモデルが進化した。
実験結果から, GLUE と SQuAD 2.0 ベンチマークでは, ELECTRA の平均性能を2.8%, SQuAD 2.0 ベンチマークでは3.2%向上した。
事前トレーニングされたMCLモデルはhttps://huggingface.co/McmanusChen/MCL-baseで入手できる。
関連論文リスト
- MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive
Learning [47.95399695465355]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization [13.38986769508059]
Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
論文 参考訳(メタデータ) (2024-02-15T05:35:04Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Iterative Forward Tuning Boosts In-context Learning in Language Models [46.848235335267375]
大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。