論文の概要: Analyzing Cognitive Plausibility of Subword Tokenization
- arxiv url: http://arxiv.org/abs/2310.13348v1
- Date: Fri, 20 Oct 2023 08:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:55:49.616674
- Title: Analyzing Cognitive Plausibility of Subword Tokenization
- Title(参考訳): サブワードトークン化の認知的可能性の解析
- Authors: Lisa Beinborn and Yuval Pinter
- Abstract要約: サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 9.510439539246846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Subword tokenization has become the de-facto standard for tokenization,
although comparative evaluations of subword vocabulary quality across languages
are scarce. Existing evaluation studies focus on the effect of a tokenization
algorithm on the performance in downstream tasks, or on engineering criteria
such as the compression rate. We present a new evaluation paradigm that focuses
on the cognitive plausibility of subword tokenization. We analyze the
correlation of the tokenizer output with the response time and accuracy of
human performance on a lexical decision task. We compare three tokenization
algorithms across several languages and vocabulary sizes. Our results indicate
that the UnigramLM algorithm yields less cognitively plausible tokenization
behavior and a worse coverage of derivational morphemes, in contrast with prior
work.
- Abstract(参考訳): サブワードのトークン化はトークン化のデファクトスタンダードとなっているが、サブワードの語彙品質の比較評価は少ない。
既存の評価研究では、トークン化アルゴリズムが下流タスクの性能や圧縮率などの工学的基準に及ぼす影響に焦点を当てている。
本稿では,サブワードトークン化の認知的可能性に着目した新しい評価パラダイムを提案する。
語彙決定タスクにおいて,トークン化器出力と人的性能の応答時間と精度の相関関係を解析した。
複数の言語と語彙サイズにまたがる3つのトークン化アルゴリズムを比較した。
以上の結果から,UnigramLMアルゴリズムは,従来の研究と対照的に,認知学的に妥当なトークン化挙動が低く,導出形態が悪くなることが示唆された。
関連論文リスト
- Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge [10.721272718226848]
サブワードトークン化のための内在的・外在的評価フレームワークを提案する。
Intrepidの評価は、私たちの新しいUniMorph Labellerツールに基づいており、サブワードのトークン化を形態学または異星人として分類する。
実験の結果、UniMorph Labellerの精度は98%であり、異種トークン化はより低い一般化をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-20T06:49:15Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary
Restriction as Post Processing [4.781986758380065]
本稿では,すでに訓練済みの下流モデルの性能向上のために,トークン化を最適化する手法を提案する。
本手法は,語彙制限のためのトレーニングデータに基づいて,与えられた下流モデルの損失値の低いトークン化結果を生成し,トークン化結果を再現するトークン化者を訓練する。
論文 参考訳(メタデータ) (2023-04-21T08:29:14Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。