Fugu-MT 論文翻訳(概要): Byte BPE Tokenization as an Inverse string Homomorphism

論文の概要: Byte BPE Tokenization as an Inverse string Homomorphism

arxiv url: http://arxiv.org/abs/2412.03160v1
Date: Wed, 04 Dec 2024 09:38:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.612638
Title: Byte BPE Tokenization as an Inverse string Homomorphism
Title（参考訳）: 逆文字列準同型としてのByte BPEトークン化
Authors: Saibo Geng, Sankalp Gambhir, Chris Wendler, Robert West,
Abstract要約: トークン化は文字列とトークンの間の逆準同型として作用することを示す。これは、原言語の文字空間とトークン化された言語のトークン空間が同型であることを示唆している。また、トークン化器から返されるあいまいなトークン化を指す固有トークン化の概念についても検討する。
参考スコア（独自算出の注目度）: 12.885921620444272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tokenization is an important preprocessing step in the training and inference of large language models (LLMs). While there has been extensive research on the expressive power of the neural achitectures used in LLMs, the impact of tokenization has not been well understood. In this work, we demonstrate that tokenization, irrespective of the algorithm used, acts as an inverse homomorphism between strings and tokens. This suggests that the character space of the source language and the token space of the tokenized language are homomorphic, preserving the structural properties of the source language. Additionally, we explore the concept of proper tokenization, which refers to an unambiguous tokenization returned from the tokenizer. Our analysis reveals that the expressiveness of neural architectures in recognizing context-free languages is not affected by tokenization.
Abstract（参考訳）: トークン化は、大規模言語モデル(LLM)のトレーニングと推論において重要な前処理ステップである。 LLMで使用される神経軸索の表現力について広範な研究がなされているが、トークン化の影響はよく理解されていない。本研究では、使用するアルゴリズムによらず、トークン化が文字列とトークンの間の逆準同型として作用することを示す。このことは、ソース言語の文字空間とトークン化された言語のトークン空間が同型であり、ソース言語の構造的特性を保存することを示唆している。さらに、トークン化器から返されるあいまいなトークン化を指す適切なトークン化の概念についても検討する。分析の結果,文脈自由言語認識におけるニューラルアーキテクチャの表現性は,トークン化の影響を受けないことが明らかとなった。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳（メタデータ） (2024-12-14T18:18:52Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement [5.223020867766102]
異なるトークン化方式がスペイン語の複数形の数字合意にどのように影響するかを検討する。形態的に整列したトークン化は他のトークン化方式と同様に機能する。以上の結果から,形態的トークン化は性能に厳密には要求されないことが示唆された。
論文参考訳（メタデータ） (2024-03-20T17:01:56Z)
How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文参考訳（メタデータ） (2024-02-22T23:11:08Z)
Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文参考訳（メタデータ） (2024-02-13T02:46:45Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-20T08:25:37Z)
mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。 40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文参考訳（メタデータ） (2023-08-17T16:02:29Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文参考訳（メタデータ） (2022-10-11T14:32:46Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。