Fugu-MT 論文翻訳(概要): Analyzing Cognitive Plausibility of Subword Tokenization

論文の概要: Analyzing Cognitive Plausibility of Subword Tokenization

arxiv url: http://arxiv.org/abs/2310.13348v1
Date: Fri, 20 Oct 2023 08:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 23:55:49.616674
Title: Analyzing Cognitive Plausibility of Subword Tokenization
Title（参考訳）: サブワードトークン化の認知的可能性の解析
Authors: Lisa Beinborn and Yuval Pinter
Abstract要約: サブワードトークン化はトークン化のデファクトスタンダードになっている。本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
参考スコア（独自算出の注目度）: 9.510439539246846
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Subword tokenization has become the de-facto standard for tokenization, although comparative evaluations of subword vocabulary quality across languages are scarce. Existing evaluation studies focus on the effect of a tokenization algorithm on the performance in downstream tasks, or on engineering criteria such as the compression rate. We present a new evaluation paradigm that focuses on the cognitive plausibility of subword tokenization. We analyze the correlation of the tokenizer output with the response time and accuracy of human performance on a lexical decision task. We compare three tokenization algorithms across several languages and vocabulary sizes. Our results indicate that the UnigramLM algorithm yields less cognitively plausible tokenization behavior and a worse coverage of derivational morphemes, in contrast with prior work.
Abstract（参考訳）: サブワードのトークン化はトークン化のデファクトスタンダードとなっているが、サブワードの語彙品質の比較評価は少ない。既存の評価研究では、トークン化アルゴリズムが下流タスクの性能や圧縮率などの工学的基準に及ぼす影響に焦点を当てている。本稿では,サブワードトークン化の認知的可能性に着目した新しい評価パラダイムを提案する。語彙決定タスクにおいて,トークン化器出力と人的性能の応答時間と精度の相関関係を解析した。複数の言語と語彙サイズにまたがる3つのトークン化アルゴリズムを比較した。以上の結果から,UnigramLMアルゴリズムは,従来の研究と対照的に,認知学的に妥当なトークン化挙動が低く,導出形態が悪くなることが示唆された。

関連論文リスト

Conditional Unigram Tokenization with Parallel Data [1.8416014644193066]
並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。我々は、異なるファミリーとリソースレベルにわたる4つの言語対でトークン化器を評価した。
論文参考訳（メタデータ） (2025-07-10T14:53:59Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文参考訳（メタデータ） (2025-06-03T17:59:47Z)
Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-22T16:24:37Z)
Byte BPE Tokenization as an Inverse string Homomorphism [12.885921620444272]
トークン化は文字列とトークンの間の逆準同型として作用することを示す。これは、原言語の文字空間とトークン化された言語のトークン空間が同型であることを示唆している。また、トークン化器から返されるあいまいなトークン化を指す固有トークン化の概念についても検討する。
論文参考訳（メタデータ） (2024-12-04T09:38:11Z)
STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。 Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文参考訳（メタデータ） (2024-09-04T02:20:59Z)
Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge [10.721272718226848]
サブワードトークン化のための内在的・外在的評価フレームワークを提案する。 Intrepidの評価は、私たちの新しいUniMorph Labellerツールに基づいており、サブワードのトークン化を形態学または異星人として分類する。実験の結果、UniMorph Labellerの精度は98%であり、異種トークン化はより低い一般化をもたらすことがわかった。
論文参考訳（メタデータ） (2024-04-20T06:49:15Z)
Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文参考訳（メタデータ） (2024-04-03T03:14:27Z)
Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。 Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文参考訳（メタデータ） (2024-03-01T10:03:07Z)
Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文参考訳（メタデータ） (2023-10-09T00:20:59Z)
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-05-22T17:58:04Z)
Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing [4.781986758380065]
本稿では,すでに訓練済みの下流モデルの性能向上のために,トークン化を最適化する手法を提案する。本手法は,語彙制限のためのトレーニングデータに基づいて,与えられた下流モデルの損失値の低いトークン化結果を生成し,トークン化結果を再現するトークン化者を訓練する。
論文参考訳（メタデータ） (2023-04-21T08:29:14Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文参考訳（メタデータ） (2022-10-11T14:32:46Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2022-04-08T13:22:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。