論文の概要: Improving Tokenisation by Alternative Treatment of Spaces
- arxiv url: http://arxiv.org/abs/2204.04058v1
- Date: Fri, 8 Apr 2022 13:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:30:49.654078
- Title: Improving Tokenisation by Alternative Treatment of Spaces
- Title(参考訳): 空間の代替処理によるトークン化の改善
- Authors: Edward Gow-Smith, Harish Tayyar Madabushi, Carolina Scarton and Aline
Villavicencio
- Abstract要約: 空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 7.596737214110957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenisation is the first step in almost all NLP tasks, and state-of-the-art
transformer-based language models all use subword tokenisation algorithms to
process input text. Existing algorithms have problems, often producing
tokenisations of limited linguistic validity, and representing equivalent
strings differently depending on their position within a word. We hypothesise
that these problems hinder the ability of transformer-based models to handle
complex words, and suggest that these problems are a result of allowing tokens
to include spaces. We thus experiment with an alternative tokenisation approach
where spaces are always treated as individual tokens. Specifically, we apply
this modification to the BPE and Unigram algorithms. We find that our modified
algorithms lead to improved performance on downstream NLP tasks that involve
handling complex words, whilst having no detrimental effect on performance in
general natural language understanding tasks. Intrinsically, we find our
modified algorithms give more morphologically correct tokenisations, in
particular when handling prefixes. Given the results of our experiments, we
advocate for always treating spaces as individual tokens as an improved
tokenisation method.
- Abstract(参考訳): トークン化は、ほとんどすべてのNLPタスクの最初のステップであり、最先端のトランスフォーマーベースの言語モデルはすべて、入力テキストを処理するためにサブワードトークン化アルゴリズムを使用している。
既存のアルゴリズムには問題があり、しばしば限定された言語的妥当性のトークンを生成し、単語内のその位置によって異なる等価文字列を表現する。
これらの問題は、複雑な単語を扱うトランスフォーマーベースモデルの能力を妨げていると仮定し、トークンに空間を含ませることによる結果であると示唆する。
したがって、空間は常に個々のトークンとして扱われる別のトークン化アプローチを試す。
具体的には、この修正をBPEおよびUnigramアルゴリズムに適用する。
改良したアルゴリズムは,自然言語理解タスクにおける性能に悪影響を及ぼすことなく,複雑な単語を扱う下流nlpタスクのパフォーマンス向上に繋がることがわかった。
本質的には、修正されたアルゴリズムは、特にプレフィックスを扱う場合に、より形態学的に正しいトークン化を与える。
実験の結果から, 空間を個々のトークンとして, 改良されたトークン化手法として常に扱うことを提唱した。
関連論文リスト
- Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Word Boundary Information Isn't Useful for Encoder Language Models [8.1305024841559]
我々は、4つの異なる訓練尺度でトランスフォーマーエンコーダを訓練し、単語境界情報を含むいくつかの代替手法について検討する。
代替手法による大幅な改善は見つからず、単語境界情報を削除するトークンサの修正は有用な情報の喪失につながるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-01-15T19:21:08Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。