論文の概要: The Foundations of Tokenization: Statistical and Computational Concerns
- arxiv url: http://arxiv.org/abs/2407.11606v3
- Date: Mon, 4 Nov 2024 22:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:59:00.613859
- Title: The Foundations of Tokenization: Statistical and Computational Concerns
- Title(参考訳): トークン化の基礎:統計的・計算的懸念
- Authors: Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell,
- Abstract要約: トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
- 参考スコア(独自算出の注目度): 51.370165245628975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization - the practice of converting strings of characters from an alphabet into sequences of tokens over a vocabulary - is a critical step in the NLP pipeline. The use of token representations is widely credited with increased model performance but is also the source of many undesirable behaviors, such as spurious ambiguity or inconsistency. Despite its recognized importance as a standard representation method in NLP, the theoretical underpinnings of tokenization are not yet fully understood. In particular, the impact of tokenization on statistical estimation has been investigated mostly through empirical means. The present paper contributes to addressing this theoretical gap by proposing a unified formal framework for representing and analyzing tokenizer models. Based on the category of stochastic maps, this framework enables us to establish general conditions for a principled use of tokenizers, and most importantly, the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. Additionally, we discuss statistical and computational concerns crucial for designing and implementing tokenizer models, such as inconsistency, ambiguity, tractability, and boundedness. The framework and results advanced in this paper contribute to building robust theoretical foundations for representations in neural language modeling that can inform future empirical research.
- Abstract(参考訳): トークン化(Tokenization) — アルファベットから語彙上のトークンのシーケンスに変換するプラクティス — は、NLPパイプラインにおける重要なステップである。
トークン表現の使用は、モデル性能の向上と広く認められているが、急激な曖昧さや矛盾といった多くの望ましくない行動の源でもある。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
特に、トークン化が統計的推定に与える影響は、主に経験的な方法で研究されている。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
確率写像のカテゴリに基づいて、このフレームワークは、トークン化器の原理的使用のための一般的な条件を確立することが可能であり、最も重要なことは、統計推定器の整合性を維持するために、トークン化器モデルに必要な必要かつ十分な条件を確立することができることである。
さらに, 整合性, 曖昧性, トラクタビリティ, 有界性など, トークン化モデルの設計と実装に不可欠な統計的および計算的問題についても論じる。
本研究の枠組みと成果は,ニューラルネットワークモデリングにおける表現のための堅牢な理論基盤の構築に寄与する。
関連論文リスト
- I Bet You Did Not Mean That: Testing Semantic Importance via Betting [8.909843275476264]
我々は、条件付き独立性を用いて不透明モデルの予測に対する意味論的概念のグローバル(すなわち人口以上)とローカル(すなわちサンプル)の統計的重要性を定式化する。
我々は、シーケンシャルなカーネル化独立テストという最近の考え方を用いて、概念間の重要度を誘導し、我々のフレームワークの有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2024-05-29T14:51:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Logic Constraints to Feature Importances [17.234442722611803]
AIモデルの"ブラックボックス"の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。
近年の研究では、適切な解釈可能性のレベルが、モデル信頼性というより一般的な概念を強制できることが示されている。
本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。
論文 参考訳(メタデータ) (2021-10-13T09:28:38Z) - Learning Topic Models: Identifiability and Finite-Sample Analysis [6.181048261489101]
本稿では,特定の統合可能性に基づく潜在トピックの最大確率推定器(MLE)を提案する。
シミュレーションと実データの両方について実証的研究を行った。
論文 参考訳(メタデータ) (2021-10-08T16:35:42Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - A practical introduction to the Rational Speech Act modeling framework [2.1485350418225244]
計算認知科学の最近の進歩は、形式的で実装可能なプラグマティクスのモデルにおいて、大きな進歩の道を開いた。
本稿では,ベイズ合理音声法モデリングフレームワークの実践的紹介と批判的評価を行う。
論文 参考訳(メタデータ) (2021-05-20T16:08:04Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。