論文の概要: Effects of sub-word segmentation on performance of transformer language
models
- arxiv url: http://arxiv.org/abs/2305.05480v3
- Date: Thu, 26 Oct 2023 20:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:18:15.738406
- Title: Effects of sub-word segmentation on performance of transformer language
models
- Title(参考訳): 変圧器言語モデルの性能に及ぼすサブワードセグメンテーションの影響
- Authors: Jue Hou, Anisia Katinskaia, Anh-Duc Vu and Roman Yangarber
- Abstract要約: 統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
- 参考スコア(独自算出の注目度): 0.628122931748758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language modeling is a fundamental task in natural language processing, which
has been thoroughly explored with various architectures and hyperparameters.
However, few studies focus on the effect of sub-word segmentation on the
performance of language models (LMs). In this paper, we compare GPT and BERT
models trained with the statistical segmentation algorithm BPE vs. two
unsupervised algorithms for morphological segmentation -- Morfessor and
StateMorph. We train the models for several languages -- including ones with
very rich morphology -- and compare their performance with different
segmentation algorithms, vocabulary sizes, and model sizes. The results show
that training with morphological segmentation allows the LMs to: 1. achieve
lower perplexity, 2. converge more efficiently in terms of training time, and
3. achieve equivalent or better evaluation scores on downstream tasks. Lastly,
we show 4. that LMs of smaller size using morphological segmentation can
perform comparably to models of larger size trained with BPE -- both in terms
of (1) perplexity and (3) scores on downstream tasks. Points (2) and (4) impact
on sustainability of LMs, since they reduce the model cost: size and
computation time. While (2) reduces cost only in the training phase, (4) does
so also in the inference phase.
- Abstract(参考訳): 言語モデリングは自然言語処理の基本的な課題であり、様々なアーキテクチャやハイパーパラメータで徹底的に研究されてきた。
しかし、サブワードセグメンテーションが言語モデル(LM)の性能に与える影響に注目する研究はほとんどない。
本稿では,統計的セグメンテーションアルゴリズム(BPE)とモーフソルとステートモルフの2つの教師なしアルゴリズム(MorfessorとStateMorph)で訓練されたGPTモデルとBERTモデルを比較し,その性能を異なるセグメンテーションアルゴリズム,語彙サイズ,モデルサイズと比較する。
その結果, 形態的セグメンテーションによるトレーニングにより, LMは以下のようになることがわかった。
1. 難易度を低くする
2 訓練時間の観点からより効率的に収束し、
3. 下流タスクで同等またはより良い評価スコアを達成する。
最後に示すのは
4) 形態的セグメンテーションを用いた小サイズのLMは,(1)パープレキシティ,(3)下流タスクにおけるスコアの両面において,BPEで訓練したより大きなサイズのモデルに比較可能であった。
ポイント(2)と(4)はモデルコスト:サイズと計算時間を減らすため、lmsの持続性に影響を与える。
2) はトレーニング段階でのみコストを削減するが、(4) は推論段階でもコストを削減する。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - MorphPiece : A Linguistic Tokenizer for Large Language Models [3.8073142980733]
基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。
このトークン化器(MorphGPTと呼ばれる)で訓練されたGPTスタイルの因果言語モデルは、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-14T10:35:04Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation [0.6091702876917281]
本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
論文 参考訳(メタデータ) (2021-03-20T14:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。