論文の概要: Canonical Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2506.06446v1
- Date: Fri, 06 Jun 2025 18:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.2776
- Title: Canonical Autoregressive Generation
- Title(参考訳): 正準自己回帰生成
- Authors: Ivi Chatzi, Nina Corvelo Benz, Stratis Tsirtsis, Manuel Gomez-Rodriguez,
- Abstract要約: 大規模言語モデルが必ずしも標準トークンシーケンスを生成するとは限らないことを示す。
非正準トークン列の生成を阻害する簡易かつ効率的なサンプリング手法であるカノニカルサンプリングを導入する。
- 参考スコア(独自算出の注目度): 17.065618029171766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State of the art large language models are trained using large amounts of tokens derived from raw text using what is called a tokenizer. Crucially, the tokenizer determines the (token) vocabulary a model will use during inference as well as, in principle, the (token) language. This is because, while the token vocabulary may allow for different tokenizations of a string, the tokenizer always maps the string to only one of these tokenizations--the canonical tokenization. However, multiple lines of empirical evidence suggest that large language models do not always generate canonical token sequences, and this comes with several negative consequences. In this work, we first show that, to generate a canonical token sequence, a model needs to generate (partial) canonical token sequences at each step of the autoregressive generation process underpinning its functioning. Building upon this theoretical result, we introduce canonical sampling, a simple and efficient sampling method that precludes a given model from generating non-canonical token sequences. Further, we also show that, in comparison with standard sampling, the distribution of token sequences generated using canonical sampling is provably closer to the true distribution of token sequences used during training.
- Abstract(参考訳): 最先端の大規模言語モデルは、生のテキストから派生した大量のトークンを使って、トークン化子と呼ばれるものを使って訓練されている。
重要なことに、トークン化器は、推論中にモデルが使用する(token)語彙と、原則として(token)言語を決定する。
これは、トークンの語彙が文字列の異なるトークン化を許すが、トークン化器は常にこれらのトークン化のうちの1つ(標準トークン化)に文字列をマッピングするからである。
しかし、経験的証拠の複数行は、大きな言語モデルが必ずしも標準的なトークン列を生成するとは限らないことを示唆しており、これはいくつかの否定的な結果をもたらす。
本研究では、まず、正準トークン列を生成するためには、その機能を支える自己回帰生成プロセスの各ステップで(部分的な)正準トークン列を生成する必要があることを示す。
この理論的な結果に基づいて、所定のモデルが非標準トークン列を生成するのを防ぐ、単純で効率的なサンプリング手法であるカノニカルサンプリングを導入する。
さらに,標準サンプリングと比較して,標準サンプリングを用いて生成されたトークンシーケンスの分布が,トレーニング中に使用するトークンシーケンスの真の分布に確実に近いことを示す。
関連論文リスト
- Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。
正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-09T17:26:14Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization [3.0023392750520883]
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。
予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。
バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
論文 参考訳(メタデータ) (2024-10-19T04:06:09Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Compositional Generalization without Trees using Multiset Tagging and
Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。
次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。
我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文 参考訳(メタデータ) (2023-05-26T14:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。