論文の概要: An Empirical Study of Tokenization Strategies for Various Korean NLP
Tasks
- arxiv url: http://arxiv.org/abs/2010.02534v1
- Date: Tue, 6 Oct 2020 07:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:37:41.966653
- Title: An Empirical Study of Tokenization Strategies for Various Korean NLP
Tasks
- Title(参考訳): 韓国nlp課題のトークン化戦略に関する実証的研究
- Authors: Kyubyong Park, Joohong Lee, Seongbo Jang, Dawoon Jung
- Abstract要約: Byte Pair PE (BPE) は事実上の標準的なトークン化手法であると考えられている。
BPEがすべての言語やタスクで最善であるかどうかはまだ不明だ。
実験結果から, 韓国語から英語への翻訳において, 形態素分割とBの併用が有効であることが示唆された。
- 参考スコア(独自算出の注目度): 4.207877448862984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, tokenization is the very first step in most text processing works.
As a token serves as an atomic unit that embeds the contextual information of
text, how to define a token plays a decisive role in the performance of a
model.Even though Byte Pair Encoding (BPE) has been considered the de facto
standard tokenization method due to its simplicity and universality, it still
remains unclear whether BPE works best across all languages and tasks. In this
paper, we test several tokenization strategies in order to answer our primary
research question, that is, "What is the best tokenization strategy for Korean
NLP tasks?" Experimental results demonstrate that a hybrid approach of
morphological segmentation followed by BPE works best in Korean to/from English
machine translation and natural language understanding tasks such as KorNLI,
KorSTS, NSMC, and PAWS-X. As an exception, for KorQuAD, the Korean extension of
SQuAD, BPE segmentation turns out to be the most effective.
- Abstract(参考訳): 通常、トークン化はほとんどのテキスト処理における最初のステップである。
トークンは、テキストのコンテキスト情報を埋め込むアトミックユニットとして機能するので、トークンの定義はモデルの性能において決定的な役割を果たす。バイトペアエンコーディング(bpe)はその単純さと普遍性からデファクトスタンダードトークン化メソッドとみなされてきたが、bpeがすべての言語やタスクで最も機能するかどうかはまだ不明である。
本稿では,韓国のNLPタスクにおいて,最も優れたトークン化戦略とは何か,という質問に答えるために,いくつかのトークン化戦略をテストする。
実験結果から, 韓国の機械翻訳やKorNLI, KorSTS, NSMC, PAWS-Xなどの自然言語理解タスクにおいて, 形態的セグメンテーションとBPEの併用が有効であることが示唆された。
例外として、韓国のSQuADの拡張であるKorQuADでは、BPEセグメンテーションが最も効果的であることが判明した。
関連論文リスト
- Tokenization Is More Than Compression [15.689084780238597]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野から来ており、BPEはテキストを比較的少数のトークンに凝縮する能力に由来することが示唆されている。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - ToPro: Token-Level Prompt Decomposition for Cross-Lingual Sequence
Labeling Tasks [12.700783525558721]
ToProメソッドは入力文を1つのトークンに分解し、各トークンに1つのプロンプトテンプレートを適用する。
マルチリンガルNERおよびPOSタグ付けデータセットの実験により,ToProをベースとしたファインチューニングは,ゼロショットのクロスリンガル転送において,VanillaファインチューニングとPrompt-Tuningに優れることが示された。
論文 参考訳(メタデータ) (2024-01-29T21:44:27Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文 参考訳(メタデータ) (2021-11-07T22:54:23Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。