Fugu-MT 論文翻訳(概要): Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge

論文の概要: Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge

arxiv url: http://arxiv.org/abs/2404.13292v1
Date: Sat, 20 Apr 2024 06:49:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 19:39:25.956673
Title: Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge
Title（参考訳）: サブワードのトークン化の評価 : エイリアンのサブワード構成とOOV一般化への挑戦
Authors: Khuyagbaatar Batsuren, Ekaterina Vylomova, Verna Dankers, Tsetsuukhei Delgerbaatar, Omri Uzan, Yuval Pinter, Gábor Bella,
Abstract要約: サブワードトークン化のための内在的・外在的評価フレームワークを提案する。 Intrepidの評価は、私たちの新しいUniMorph Labellerツールに基づいており、サブワードのトークン化を形態学または異星人として分類する。実験の結果、UniMorph Labellerの精度は98%であり、異種トークン化はより低い一般化をもたらすことがわかった。
参考スコア（独自算出の注目度）: 10.721272718226848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The popular subword tokenizers of current language models, such as Byte-Pair Encoding (BPE), are known not to respect morpheme boundaries, which affects the downstream performance of the models. While many improved tokenization algorithms have been proposed, their evaluation and cross-comparison is still an open problem. As a solution, we propose a combined intrinsic-extrinsic evaluation framework for subword tokenization. Intrinsic evaluation is based on our new UniMorph Labeller tool that classifies subword tokenization as either morphological or alien. Extrinsic evaluation, in turn, is performed via the Out-of-Vocabulary Generalization Challenge 1.0 benchmark, which consists of three newly specified downstream text classification tasks. Our empirical findings show that the accuracy of UniMorph Labeller is 98%, and that, in all language models studied (including ALBERT, BERT, RoBERTa, and DeBERTa), alien tokenization leads to poorer generalizations compared to morphological tokenization for semantic compositionality of word meanings.
Abstract（参考訳）: Byte-Pair Encoding (BPE) など、現在の言語モデルの一般的なサブワードトークンは、モデルの下流のパフォーマンスに影響を与える形態素境界を尊重しないことが知られている。多くの改良されたトークン化アルゴリズムが提案されているが、それらの評価と相互比較は依然として未解決の問題である。そこで本研究では,サブワードトークン化のための内在的・外在的評価フレームワークを提案する。 Intrinsic Evaluation is based on our new UniMorph Labeller tool that classified subword tokenization as morphological or alien。外部評価は、新たに指定された3つの下流テキスト分類タスクからなるOut-of-Vocabulary Generalization Challenge 1.0ベンチマークによって行われる。実験の結果,UniMorph Labellerの精度は98%であり,すべての言語モデル(ALBERT,BERT,RoBERTa,DeBERTaを含む)において,単語の意味の意味的構成性に対する形態的トークン化に比べて,異種トークン化が低いことが示唆された。

関連論文リスト

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay [4.061135251278187]
トークン化は、形態学的にリッチな言語におけるニューラル言語モデリングのための重要な設計選択である。トルコ語サブワードのトークン化に関する、最初の包括的で原則化された研究を提示する。
論文参考訳（メタデータ） (2026-02-06T18:41:14Z)
Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文参考訳（メタデータ） (2025-08-19T22:17:42Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-22T16:24:37Z)
Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文参考訳（メタデータ） (2024-10-03T08:07:14Z)
Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T13:48:19Z)
Greed is All You Need: An Evaluation of Tokenizer Inference Methods [4.300681074103876]
4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークン化手法の制御解析を行う。我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。
論文参考訳（メタデータ） (2024-03-02T19:01:40Z)
Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-20T08:25:37Z)
Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文参考訳（メタデータ） (2023-06-13T13:27:34Z)
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-05-22T17:58:04Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文参考訳（メタデータ） (2022-11-11T03:45:59Z)
Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文参考訳（メタデータ） (2022-05-23T16:47:37Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。