Fugu-MT 論文翻訳(概要): Pre-training Language Model as a Multi-perspective Course Learner

論文の概要: Pre-training Language Model as a Multi-perspective Course Learner

arxiv url: http://arxiv.org/abs/2305.03981v1
Date: Sat, 6 May 2023 09:02:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 18:17:22.252398
Title: Pre-training Language Model as a Multi-perspective Course Learner
Title（参考訳）: マルチパースペクティブコース学習者としての事前学習言語モデル
Authors: Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen Huang, Furu Wei, Weiwei Deng and Qi Zhang
Abstract要約: 本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
参考スコア（独自算出の注目度）: 103.17674402415582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ELECTRA, the generator-discriminator pre-training framework, has achieved impressive semantic construction capability among various downstream tasks. Despite the convincing performance, ELECTRA still faces the challenges of monotonous training and deficient interaction. Generator with only masked language modeling (MLM) leads to biased learning and label imbalance for discriminator, decreasing learning efficiency; no explicit feedback loop from discriminator to generator results in the chasm between these two components, underutilizing the course learning. In this study, a multi-perspective course learning (MCL) method is proposed to fetch a many degrees and visual angles for sample-efficient pre-training, and to fully leverage the relationship between generator and discriminator. Concretely, three self-supervision courses are designed to alleviate inherent flaws of MLM and balance the label in a multi-perspective way. Besides, two self-correction courses are proposed to bridge the chasm between the two encoders by creating a "correction notebook" for secondary-supervision. Moreover, a course soups trial is conducted to solve the "tug-of-war" dynamics problem of MCL, evolving a stronger pre-trained model. Experimental results show that our method significantly improves ELECTRA's average performance by 2.8% and 3.2% absolute points respectively on GLUE and SQuAD 2.0 benchmarks, and overshadows recent advanced ELECTRA-style models under the same settings. The pre-trained MCL model is available at https://huggingface.co/McmanusChen/MCL-base.
Abstract（参考訳）: generator-discriminator事前トレーニングフレームワークであるelectraは、さまざまな下流タスクで印象的なセマンティック構築能力を達成している。説得力のあるパフォーマンスにもかかわらず、ELECTRAは単調なトレーニングと不十分なインタラクションの課題に直面している。マスキング言語モデリング(mlm)のみを持つジェネレータは、識別器のバイアス付き学習とラベル不均衡につながり、学習効率が低下する。本研究では,多視点学習(MCL)手法を提案し,サンプル効率のよい事前学習のための様々な角度と視覚的角度を抽出し,ジェネレータと判別器の関係を十分に活用する。具体的には、3つの自己超越コースは、MLMの固有の欠陥を緩和し、マルチパースペクティブな方法でラベルのバランスをとるように設計されている。また、2つの自己修正コースが提案され、2つのエンコーダ間のキャズムを橋渡しし、二次的スーパービジョンのための「修正ノートブック」を作成する。さらに、mclの「戦争状態」のダイナミクス問題を解くためにコーススープの試行が行われ、より強い事前訓練されたモデルが進化した。実験結果から, GLUE と SQuAD 2.0 ベンチマークでは, ELECTRA の平均性能を2.8%, SQuAD 2.0 ベンチマークでは3.2%向上した。事前トレーニングされたMCLモデルはhttps://huggingface.co/McmanusChen/MCL-baseで入手できる。

関連論文リスト

From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model [29.879983760203256]
MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T07:31:24Z)
Token-Level Uncertainty-Aware Objective for Language Model Post-Training [2.5671111123644894]
我々は,因果言語モデリングにおけるトークンレベルの不確実性を,(1)マスクされた最大可能性(MLE),(2)自己蒸留の2種類の訓練目標に結びつける。マスクMLEは, 難治性の軽減に有効であり, トークンレベルの自動カリキュラム学習技術として有効であることを示す。しかし、マスクされたMLEは過度に適合する傾向があり、アウト・オブ・ディストリビューションタスクのパフォーマンスを向上または維持するために自己蒸留正則化が必要である。
論文参考訳（メタデータ） (2025-03-15T00:32:14Z)
CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter [9.631036588583248]
投機的復号化は,軽量な投機的ドラフトモデルを活用することで,Large Language Model (LLM)推論を高速化する強力な手法である。近年の手法では、多段階のトレーニング戦略を採用することでこの問題の解決が試みられているが、異なるトレーニングステップの複雑な入力によって、ドラフトモデルを収束させるのが難しくなっている。投機的起草における精度と効率を両立させる新しいフレームワークであるCORALを提案する。
論文参考訳（メタデータ） (2025-02-24T06:28:26Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Light-Weight Fault Tolerant Attention for Large Language Model Training [14.178223242134166]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。 LLMは、特にアテンション機構において故障の影響を受けやすいが、これはトランスフォーマーベースのLLMの重要な構成要素である。我々は,LLMにおけるアテンション機構に適したアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。
論文参考訳（メタデータ） (2024-10-15T15:52:45Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。 LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文参考訳（メタデータ） (2024-06-19T13:38:34Z)
MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文参考訳（メタデータ） (2024-03-11T17:03:04Z)
Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:13:33Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。 textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文参考訳（メタデータ） (2023-04-20T20:05:08Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文参考訳（メタデータ） (2022-04-15T17:19:41Z)
On Minimum Word Error Rate Training of the Hybrid Autoregressive Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文参考訳（メタデータ） (2020-10-23T21:16:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。