論文の概要: The Foundations of Tokenization: Statistical and Computational Concerns
- arxiv url: http://arxiv.org/abs/2407.11606v1
- Date: Tue, 16 Jul 2024 11:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:23:07.427487
- Title: The Foundations of Tokenization: Statistical and Computational Concerns
- Title(参考訳): トークン化の基礎:統計的・計算的懸念
- Authors: Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell,
- Abstract要約: トークン化とは、アルファベット上の文字の文字列を語彙上のトークンの列に変換するプラクティスである。
本稿では,トークン化の基礎を形式的観点から説明する。
- 参考スコア(独自算出の注目度): 51.370165245628975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization - the practice of converting strings of characters over an alphabet into sequences of tokens over a vocabulary - is a critical yet under-theorized step in the NLP pipeline. Notably, it remains the only major step not fully integrated into widely used end-to-end neural models. This paper aims to address this theoretical gap by laying the foundations of tokenization from a formal perspective. By articulating and extending basic properties about the category of stochastic maps, we propose a unified framework for representing and analyzing tokenizer models. This framework allows us to establish general conditions for the use of tokenizers. In particular, we formally establish the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. Additionally, we discuss statistical and computational concerns crucial for the design and implementation of tokenizer models. The framework and results advanced in this paper represent a step toward a robust theoretical foundation for neural language modeling.
- Abstract(参考訳): トークン化(Tokenization) - アルファベット上の文字列を語彙上のトークンのシーケンスに変換するプラクティス。
特に、広く使われているエンドツーエンドのニューラルモデルに完全に統合されていない唯一の主要なステップである。
本稿では,トークン化の基礎を形式的観点から構築することで,この理論的ギャップに対処することを目的とする。
確率写像のカテゴリに関する基本特性を記述・拡張することにより,トークン化モデルを表現・解析するための統一的な枠組みを提案する。
このフレームワークにより、トークン化剤の使用に関する一般的な条件が確立できます。
特に,統計的推定器の整合性を維持するために,トークン化モデルに必要な,十分な条件を正式に確立する。
さらに,トークン化モデルの設計と実装に不可欠な統計的および計算上の懸念についても論じる。
本稿では,ニューラルネットワークモデリングの堅牢な理論的基盤に向けた第一歩として,その枠組みと成果について述べる。
関連論文リスト
- I Bet You Did Not Mean That: Testing Semantic Importance via Betting [8.909843275476264]
我々は、条件付き独立性を用いて不透明モデルの予測に対する意味論的概念のグローバル(すなわち人口以上)とローカル(すなわちサンプル)の統計的重要性を定式化する。
我々は、シーケンシャルなカーネル化独立テストという最近の考え方を用いて、概念間の重要度を誘導し、我々のフレームワークの有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2024-05-29T14:51:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Logic Constraints to Feature Importances [17.234442722611803]
AIモデルの"ブラックボックス"の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。
近年の研究では、適切な解釈可能性のレベルが、モデル信頼性というより一般的な概念を強制できることが示されている。
本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。
論文 参考訳(メタデータ) (2021-10-13T09:28:38Z) - Learning Topic Models: Identifiability and Finite-Sample Analysis [6.181048261489101]
本稿では,特定の統合可能性に基づく潜在トピックの最大確率推定器(MLE)を提案する。
シミュレーションと実データの両方について実証的研究を行った。
論文 参考訳(メタデータ) (2021-10-08T16:35:42Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - A practical introduction to the Rational Speech Act modeling framework [2.1485350418225244]
計算認知科学の最近の進歩は、形式的で実装可能なプラグマティクスのモデルにおいて、大きな進歩の道を開いた。
本稿では,ベイズ合理音声法モデリングフレームワークの実践的紹介と批判的評価を行う。
論文 参考訳(メタデータ) (2021-05-20T16:08:04Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。