Fugu-MT 論文翻訳(概要): An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks

論文の概要: An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks

arxiv url: http://arxiv.org/abs/2010.02534v1
Date: Tue, 6 Oct 2020 07:20:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 06:37:41.966653
Title: An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks
Title（参考訳）: 韓国nlp課題のトークン化戦略に関する実証的研究
Authors: Kyubyong Park, Joohong Lee, Seongbo Jang, Dawoon Jung
Abstract要約: Byte Pair PE (BPE) は事実上の標準的なトークン化手法であると考えられている。 BPEがすべての言語やタスクで最善であるかどうかはまだ不明だ。実験結果から, 韓国語から英語への翻訳において, 形態素分割とBの併用が有効であることが示唆された。
参考スコア（独自算出の注目度）: 4.207877448862984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Typically, tokenization is the very first step in most text processing works. As a token serves as an atomic unit that embeds the contextual information of text, how to define a token plays a decisive role in the performance of a model.Even though Byte Pair Encoding (BPE) has been considered the de facto standard tokenization method due to its simplicity and universality, it still remains unclear whether BPE works best across all languages and tasks. In this paper, we test several tokenization strategies in order to answer our primary research question, that is, "What is the best tokenization strategy for Korean NLP tasks?" Experimental results demonstrate that a hybrid approach of morphological segmentation followed by BPE works best in Korean to/from English machine translation and natural language understanding tasks such as KorNLI, KorSTS, NSMC, and PAWS-X. As an exception, for KorQuAD, the Korean extension of SQuAD, BPE segmentation turns out to be the most effective.
Abstract（参考訳）: 通常、トークン化はほとんどのテキスト処理における最初のステップである。トークンは、テキストのコンテキスト情報を埋め込むアトミックユニットとして機能するので、トークンの定義はモデルの性能において決定的な役割を果たす。バイトペアエンコーディング(bpe)はその単純さと普遍性からデファクトスタンダードトークン化メソッドとみなされてきたが、bpeがすべての言語やタスクで最も機能するかどうかはまだ不明である。本稿では,韓国のNLPタスクにおいて,最も優れたトークン化戦略とは何か,という質問に答えるために,いくつかのトークン化戦略をテストする。実験結果から, 韓国の機械翻訳やKorNLI, KorSTS, NSMC, PAWS-Xなどの自然言語理解タスクにおいて, 形態的セグメンテーションとBPEの併用が有効であることが示唆された。例外として、韓国のSQuADの拡張であるKorQuADでは、BPEセグメンテーションが最も効果的であることが判明した。

関連論文リスト

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [62.35048154917945]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。本稿ではParity-aware Byte Pairを紹介する。私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文参考訳（メタデータ） (2025-08-06T18:14:43Z)
MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文参考訳（メタデータ） (2025-04-14T15:44:45Z)
SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。 SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文参考訳（メタデータ） (2025-03-17T17:53:23Z)
When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-12-09T19:11:54Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文参考訳（メタデータ） (2024-06-13T04:10:17Z)
Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。 (BPE)はデータ圧縮の分野に由来する。 PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文参考訳（メタデータ） (2024-02-28T14:52:15Z)
ToPro: Token-Level Prompt Decomposition for Cross-Lingual Sequence Labeling Tasks [12.700783525558721]
ToProメソッドは入力文を1つのトークンに分解し、各トークンに1つのプロンプトテンプレートを適用する。マルチリンガルNERおよびPOSタグ付けデータセットの実験により,ToProをベースとしたファインチューニングは,ゼロショットのクロスリンガル転送において,VanillaファインチューニングとPrompt-Tuningに優れることが示された。
論文参考訳（メタデータ） (2024-01-29T21:44:27Z)
Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文参考訳（メタデータ） (2023-10-09T00:20:59Z)
VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文参考訳（メタデータ） (2023-04-17T12:23:41Z)
TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。 TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文参考訳（メタデータ） (2021-11-07T22:54:23Z)
KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文参考訳（メタデータ） (2021-05-20T11:40:30Z)
MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T09:22:19Z)
Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文参考訳（メタデータ） (2020-04-07T21:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。