Fugu-MT 論文翻訳(概要): Causal Estimation of Tokenisation Bias

論文の概要: Causal Estimation of Tokenisation Bias

arxiv url: http://arxiv.org/abs/2506.03149v1
Date: Tue, 03 Jun 2025 17:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.995076
Title: Causal Estimation of Tokenisation Bias
Title（参考訳）: トークン化バイアスの因果推定
Authors: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel,
Abstract要約: 我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
参考スコア（独自算出の注目度）: 58.20086589761273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern language models are typically trained over subword sequences, but ultimately define probabilities over character-strings. Ideally, the choice of the tokeniser -- which maps character-strings to subwords -- should not affect the probability assigned to the underlying character-string; in practice, it does. We define this mismatch as tokenisation bias. In this work, we quantify one particular type of tokenisation bias: the effect of including or not a subword (e.g., $\langle hello \rangle$) in a tokeniser's vocabulary on the probability a trained model assigns to the corresponding characters (i.e., \textit{``hello''}). Estimating this effect is challenging because each model is trained with only one tokeniser. We address this by framing tokenisation bias as a causal effect and estimating it using the regression discontinuity design. Specifically, we exploit the fact that tokenisation algorithms rank subwords and add the first $K$ to a tokeniser's vocabulary, where $K$ is an arbitrary cutoff point. As such, we can estimate a causal effect by comparing similar subwords around this cutoff. Experimentally, we find that tokenisation consistently affects models' outputs across scales, vocabularies, and tokenisers. Notably, a subword's presence in a small model's vocabulary may increase its characters' probability by up to 17 times, highlighting tokenisation as a key design choice in language modelling.
Abstract（参考訳）: 現代の言語モデルは典型的にはサブワード列よりも訓練されるが、究極的には文字列よりも確率を定義する。理想的には、文字文字列をサブワードにマッピングするトークンサの選択は、下層の文字列に割り当てられた確率に影響しない。このミスマッチをトークン化バイアスと定義します。この研究では、訓練されたモデルが対応する文字に割り当てる確率(例: \textit{``hello'} )に基づいて、トークンの語彙にサブワード(eg , $\langle hello \rangle$)を含ませることの効果を定量化する。この効果を見積もるのは,各モデルが1つのトークンサでトレーニングされているためです。トークン化バイアスを因果効果とし、回帰不連続設計を用いて推定することでこの問題に対処する。具体的には、トークン化アルゴリズムがサブワードをランク付けし、トークンの語彙に最初の$K$を加えるという事実を利用する。このように、このカットオフに関する類似のサブワードを比較することで因果効果を推定できる。実験的に、トークン化はスケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に増加させ、言語モデリングにおける重要な設計選択としてトークン化を強調している。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文参考訳（メタデータ） (2025-06-09T17:26:14Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、内部的、数学的には、エンファラクタ文字列ではなくトークン文字列上の分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization [3.0023392750520883]
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
論文参考訳（メタデータ） (2024-10-19T04:06:09Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2023-09-10T10:57:41Z)
Should you marginalize over possible tokenizations? [13.07994518230055]
ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
論文参考訳（メタデータ） (2023-06-30T16:09:01Z)
You should evaluate your language model on marginal likelihood overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文参考訳（メタデータ） (2021-09-06T15:37:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。