Fugu-MT 論文翻訳(概要): AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

論文の概要: AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

arxiv url: http://arxiv.org/abs/2008.11869v4
Date: Thu, 27 May 2021 10:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 07:08:43.932227
Title: AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
Title（参考訳）: AMBERT:多言語化による事前学習型言語モデル
Authors: Xinsong Zhang, Pengshuai Li, and Hang Li
Abstract要約: AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。 CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
参考スコア（独自算出の注目度）: 13.082435183692393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models such as BERT have exhibited remarkable performances in many tasks in natural language understanding (NLU). The tokens in the models are usually fine-grained in the sense that for languages like English they are words or sub-words and for languages like Chinese they are characters. In English, for example, there are multi-word expressions which form natural lexical units and thus the use of coarse-grained tokenization also appears to be reasonable. In fact, both fine-grained and coarse-grained tokenizations have advantages and disadvantages for learning of pre-trained language models. In this paper, we propose a novel pre-trained language model, referred to as AMBERT (A Multi-grained BERT), on the basis of both fine-grained and coarse-grained tokenizations. For English, AMBERT takes both the sequence of words (fine-grained tokens) and the sequence of phrases (coarse-grained tokens) as input after tokenization, employs one encoder for processing the sequence of words and the other encoder for processing the sequence of the phrases, utilizes shared parameters between the two encoders, and finally creates a sequence of contextualized representations of the words and a sequence of contextualized representations of the phrases. Experiments have been conducted on benchmark datasets for Chinese and English, including CLUE, GLUE, SQuAD and RACE. The results show that AMBERT can outperform BERT in all cases, particularly the improvements are significant for Chinese. We also develop a method to improve the efficiency of AMBERT in inference, which still performs better than BERT with the same computational cost as BERT.
Abstract（参考訳）: BERTのような事前訓練された言語モデルは、自然言語理解(NLU)において多くのタスクにおいて顕著な性能を示した。モデルのトークンは通常、英語のような言語は単語またはサブワードであり、中国語のような言語は文字であるという意味できめ細かな粒度である。例えば英語では、自然の語彙単位を形成する多語表現があり、粗い粒度のトークン化の使用も妥当であるようである。実際、微粒化と粗粒化の両方のトークン化は、事前訓練された言語モデルの学習に利点と欠点がある。本稿では,細粒度および粗粒度の両方のトークン化に基づいて,AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習言語モデルを提案する。英語では、アンバートは単語のシーケンス(きめ細かいトークン)とフレーズのシーケンス(細かなトークン)の両方をトークン化の後に入力し、単語のシーケンスを処理する1つのエンコーダと、フレーズのシーケンスを処理する他のエンコーダを使用し、2つのエンコーダ間の共有パラメータを利用し、最後に、単語のコンテキスト化された表現のシーケンスと句の文脈化された表現のシーケンスを作成する。 CLUE、GLUE、SQuAD、RACEなど、中国語と英語のベンチマークデータセットで実験が行われた。その結果、AMBERTはBERTよりも優れており、特に中国語では改善が重要であることがわかった。また,推定におけるAMBERTの効率を向上する手法を開発し,BERTと同等の計算コストでBERTよりも優れた性能を示す。

関連論文リスト

Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。 READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文参考訳（メタデータ） (2023-02-14T20:14:39Z)
CLOWER: A Pre-trained Language Model with Contrastive Learning over Word and Character Representations [18.780841483220986]
事前学習型言語モデル(PLM)は、自然言語理解における多くの下流タスクにおいて、顕著なパフォーマンス向上を実現している。現在のほとんどのモデルは漢字を入力として使用しており、中国語の単語に含まれる意味情報をエンコードすることができない。本稿では,コントラッシブ・ラーニング・オーバーワード(Contrastive Learning Over Word)とチャラクタ表現(character representations)を採用した,シンプルで効果的なPLM CLOWERを提案する。
論文参考訳（メタデータ） (2022-08-23T09:52:34Z)
PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2022-03-14T07:58:34Z)
Language Identification of Hindi-English tweets using code-mixed BERT [0.0]
この研究は、ヒンディー語-英語-ウルドゥー語混成テキストのデータ収集を言語事前学習に利用し、ヒンディー語-英語混成テキストはその後の単語レベルの言語分類に利用している。その結果、コードミックスデータ上で事前学習された表現は、モノリンガルデータによるより良い結果をもたらすことがわかった。
論文参考訳（メタデータ） (2021-07-02T17:51:36Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)
Looking for Clues of Language in Multilingual BERT to Improve Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文参考訳（メタデータ） (2020-10-20T05:41:35Z)
CERT: Contrastive Self-supervised Learning for Language Understanding [20.17416958052909]
本稿では,トランスフォーマーからのコントラスト型自己教師型表現(CERT)を提案する。 CERTは、文レベルでのコントラッシブな自己教師型学習を用いて、言語表現モデルを事前訓練する。そこでは,CERT が BERT を 7 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回る性能である GLUE ベンチマークを用いて,CERT を 11 個の自然言語理解タスクで評価した。
論文参考訳（メタデータ） (2020-05-16T16:20:38Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)
BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文参考訳（メタデータ） (2020-04-29T04:01:52Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。