論文の概要: Generative Pretrained Structured Transformers: Unsupervised Syntactic
Language Models at Scale
- arxiv url: http://arxiv.org/abs/2403.08293v1
- Date: Wed, 13 Mar 2024 06:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:03.229475
- Title: Generative Pretrained Structured Transformers: Unsupervised Syntactic
Language Models at Scale
- Title(参考訳): 生成事前学習型構造変換器:教師なし構文解析
大規模言語モデル
- Authors: Xiang Hu, Pengyu Ji, Qingyang Zhu, Wei Wu, Kewei Tu
- Abstract要約: 原文のスクラッチから事前学習が可能な大規模教師なしSLM(Generative Pretrained Structured Transformers, GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
GPSTは、左から右への文法誘導において、既存の教師なしSLMを著しく上回る。
- 参考スコア(独自算出の注目度): 39.24972628990943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A syntactic language model (SLM) incrementally generates a sentence with its
syntactic tree in a left-to-right manner. We present Generative Pretrained
Structured Transformers (GPST), an unsupervised SLM at scale capable of being
pre-trained from scratch on raw texts with high parallelism. GPST circumvents
the limitations of previous SLMs such as relying on gold trees and sequential
training. It consists of two components, a usual SLM supervised by a
uni-directional language modeling loss, and an additional composition model,
which induces syntactic parse trees and computes constituent representations,
supervised by a bi-directional language modeling loss. We propose a
representation surrogate to enable joint parallel training of the two models in
a hard-EM fashion. We pre-train GPST on OpenWebText, a corpus with $9$ billion
tokens, and demonstrate the superiority of GPST over GPT-2 with a comparable
size in numerous tasks covering both language understanding and language
generation. Meanwhile, GPST also significantly outperforms existing
unsupervised SLMs on left-to-right grammar induction, while holding a
substantial acceleration on training.
- Abstract(参考訳): 構文言語モデル(SLM)はその構文木を左から右に漸進的に生成する。
並列性の高い原文のスクラッチから事前学習が可能な大規模教師なしSLMであるGenerative Pretrained Structured Transformers (GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
これは、一方向の言語モデリング損失によって教師される通常のSLMと、構文解析木を誘導し、双方向の言語モデリング損失によって教師される構成表現を計算する追加の合成モデルからなる。
本稿では,2つのモデルの連立並列訓練をEM方式で行うための表現代行法を提案する。
我々は9億ドルのトークンを持つコーパスであるOpenWebText上でGPSTを事前訓練し、GPT-2よりもGPSTの方が優れていることを示す。
一方、GPSTは既存の教師なしSLMよりも左から右への文法誘導に優れており、トレーニングにおいてかなりの加速を保っている。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Confidence Based Bidirectional Global Context Aware Training Framework
for Neural Machine Translation [74.99653288574892]
我々は、ニューラルネットワーク翻訳(NMT)のための信頼に基づく双方向グローバルコンテキスト認識(CBBGCA)トレーニングフレームワークを提案する。
提案したCBBGCAトレーニングフレームワークは,3つの大規模翻訳データセットにおいて,NMTモデルを+1.02,+1.30,+0.57 BLEUスコアで大幅に改善する。
論文 参考訳(メタデータ) (2022-02-28T10:24:22Z) - Structural Guidance for Transformer Language Models [24.00537240110055]
本研究では,トランスフォーマー言語モデルにおける構造的ガイダンスが,より人間らしい体系的言語一般化につながるかどうかを考察する。
実験結果から、生成的構造的監督がより堅牢で人間らしい言語的一般化を誘導できるという確固たる証拠が示唆された。
論文 参考訳(メタデータ) (2021-07-30T23:14:51Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Unified Mandarin TTS Front-end Based on Distilled BERT Model [5.103126953298633]
TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
論文 参考訳(メタデータ) (2020-12-31T02:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。