論文の概要: Language Model Pre-Training with Sparse Latent Typing
- arxiv url: http://arxiv.org/abs/2210.12582v2
- Date: Wed, 26 Oct 2022 22:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:33:24.091988
- Title: Language Model Pre-Training with Sparse Latent Typing
- Title(参考訳): Sparse Latent Typingによる言語モデルの事前学習
- Authors: Liliang Ren, Zixuan Zhang, Han Wang, Clare R. Voss, Chengxiang Zhai,
Heng Ji
- Abstract要約: そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
- 参考スコア(独自算出の注目度): 66.75786739499604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large-scale Pre-trained Language Models (PLMs) have achieved
tremendous success on a wide range of downstream tasks. However, most of the LM
pre-training objectives only focus on text reconstruction, but have not sought
to learn latent-level interpretable representations of sentences. In this
paper, we manage to push the language models to obtain a deeper understanding
of sentences by proposing a new pre-training objective, Sparse Latent Typing,
which enables the model to sparsely extract sentence-level keywords with
diverse latent types. Experimental results show that our model is able to learn
interpretable latent type categories in a self-supervised manner without using
any external knowledge. Besides, the language model pre-trained with such an
objective also significantly improves Information Extraction related downstream
tasks in both supervised and few-shot settings. Our code is publicly available
at: https://github.com/renll/SparseLT.
- Abstract(参考訳): 現代の大規模事前学習言語モデル(plm)は、幅広い下流タスクで大きな成功を収めている。
しかし、LM事前学習の目的の多くはテキスト再構成にのみ焦点を合わせているが、文の潜在レベル解釈可能な表現を学習しようとはしていない。
本稿では,新しい事前学習目標であるsparse latent typingを提案することで,文の理解を深めるために言語モデルを押し進め,多種多様な潜在型を持つ文レベルのキーワードをスパース抽出できるようにする。
実験の結果,本モデルは外部の知識を使わずに,自己教師付きで解釈可能な潜在型カテゴリを学習できることがわかった。
さらに、このような目的により事前学習された言語モデルは、教師付きおよび少数ショット設定の両方において、情報抽出に関連するダウンストリームタスクを大幅に改善する。
私たちのコードは、https://github.com/renll/SparseLT.comで公開されています。
関連論文リスト
- A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。