論文の概要: MorphPiece : Moving away from Statistical Language Representation
- arxiv url: http://arxiv.org/abs/2307.07262v1
- Date: Fri, 14 Jul 2023 10:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:23:18.607380
- Title: MorphPiece : Moving away from Statistical Language Representation
- Title(参考訳): MorphPiece : 統計的言語表現から離れて
- Authors: Haris Jabbar
- Abstract要約: 本稿では,言語的に動機づけたトークン化方式であるMorphPieceを提案する。
このトークン化器で訓練されたGPTスタイルの因果言語モデルは、標準的なBPEトークン化器で訓練されたのと同じアーキテクチャに比べて優れた収束性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tokenization is a critical part of modern NLP pipelines. However,
contemporary tokenizers for Large Language Models are based on statistical
analysis of text corpora, without much consideration to the linguistic
features. We propose a linguistically motivated tokenization scheme,
MorphPiece, which is based partly on morphological segmentation of the
underlying text. A GPT-style causal language model trained on this tokenizer
(called MorphGPT) shows superior convergence compared to the same architecture
trained on a standard BPE tokenizer. Specifically we get Language Modeling
performance comparable to a 6 times larger model. Additionally, we evaluate
MorphGPT on a variety of NLP tasks in supervised and unsupervised settings and
find superior performance across the board, compared to GPT-2 model.
- Abstract(参考訳): トークン化は現代のNLPパイプラインの重要な部分である。
しかし, 大規模言語モデルの代用トークンは, 言語的特徴を考慮せずに, テキストコーパスの統計的解析に基づいている。
そこで本研究では,下位文の形態的セグメンテーションにもとづく,言語に動機づけられたトークン化スキーム morphpiece を提案する。
このトークン化器(MorphGPT)で訓練されたGPTスタイルの因果言語モデルは、標準的なBPEトークン化器で訓練されたのと同じアーキテクチャと比較して、優れた収束性を示している。
具体的には、言語モデリングのパフォーマンスが6倍のモデルに匹敵します。
さらに,様々なnlpタスクにおけるmorphgptを教師なしおよび教師なし設定で評価し,gpt-2モデルと比較して,ボード全体で優れた性能を見出した。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - KinyaBERT: a Morphology-aware Kinyarwanda Language Model [1.2183405753834562]
教師なしサブワードトークン化法は、形態的にリッチな言語を扱うのに最適である。
本稿では, 形態素解析を応用し, 構造的構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。
提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。
論文 参考訳(メタデータ) (2022-03-16T08:36:14Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。