論文の概要: An Empirical Study of Tokenization Strategies for Various Korean NLP
Tasks
- arxiv url: http://arxiv.org/abs/2010.02534v1
- Date: Tue, 6 Oct 2020 07:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:37:41.966653
- Title: An Empirical Study of Tokenization Strategies for Various Korean NLP
Tasks
- Title(参考訳): 韓国nlp課題のトークン化戦略に関する実証的研究
- Authors: Kyubyong Park, Joohong Lee, Seongbo Jang, Dawoon Jung
- Abstract要約: Byte Pair PE (BPE) は事実上の標準的なトークン化手法であると考えられている。
BPEがすべての言語やタスクで最善であるかどうかはまだ不明だ。
実験結果から, 韓国語から英語への翻訳において, 形態素分割とBの併用が有効であることが示唆された。
- 参考スコア(独自算出の注目度): 4.207877448862984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, tokenization is the very first step in most text processing works.
As a token serves as an atomic unit that embeds the contextual information of
text, how to define a token plays a decisive role in the performance of a
model.Even though Byte Pair Encoding (BPE) has been considered the de facto
standard tokenization method due to its simplicity and universality, it still
remains unclear whether BPE works best across all languages and tasks. In this
paper, we test several tokenization strategies in order to answer our primary
research question, that is, "What is the best tokenization strategy for Korean
NLP tasks?" Experimental results demonstrate that a hybrid approach of
morphological segmentation followed by BPE works best in Korean to/from English
machine translation and natural language understanding tasks such as KorNLI,
KorSTS, NSMC, and PAWS-X. As an exception, for KorQuAD, the Korean extension of
SQuAD, BPE segmentation turns out to be the most effective.
- Abstract(参考訳): 通常、トークン化はほとんどのテキスト処理における最初のステップである。
トークンは、テキストのコンテキスト情報を埋め込むアトミックユニットとして機能するので、トークンの定義はモデルの性能において決定的な役割を果たす。バイトペアエンコーディング(bpe)はその単純さと普遍性からデファクトスタンダードトークン化メソッドとみなされてきたが、bpeがすべての言語やタスクで最も機能するかどうかはまだ不明である。
本稿では,韓国のNLPタスクにおいて,最も優れたトークン化戦略とは何か,という質問に答えるために,いくつかのトークン化戦略をテストする。
実験結果から, 韓国の機械翻訳やKorNLI, KorSTS, NSMC, PAWS-Xなどの自然言語理解タスクにおいて, 形態的セグメンテーションとBPEの併用が有効であることが示唆された。
例外として、韓国のSQuADの拡張であるKorQuADでは、BPEセグメンテーションが最も効果的であることが判明した。
関連論文リスト
- When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - ToPro: Token-Level Prompt Decomposition for Cross-Lingual Sequence
Labeling Tasks [12.700783525558721]
ToProメソッドは入力文を1つのトークンに分解し、各トークンに1つのプロンプトテンプレートを適用する。
マルチリンガルNERおよびPOSタグ付けデータセットの実験により,ToProをベースとしたファインチューニングは,ゼロショットのクロスリンガル転送において,VanillaファインチューニングとPrompt-Tuningに優れることが示された。
論文 参考訳(メタデータ) (2024-01-29T21:44:27Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文 参考訳(メタデータ) (2021-11-07T22:54:23Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。