論文の概要: Lossless Vocabulary Reduction for Auto-Regressive Language Models
- arxiv url: http://arxiv.org/abs/2510.08102v1
- Date: Thu, 09 Oct 2025 11:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.045265
- Title: Lossless Vocabulary Reduction for Auto-Regressive Language Models
- Title(参考訳): 自己回帰型言語モデルにおけるロスレス語彙の削減
- Authors: Daiki Chijiwa, Taku Hasegawa, Kyosuke Nishida, Shin'ya Yamaguchi, Tomoya Ohba, Tamao Sakao, Susumu Takeuchi,
- Abstract要約: トークンと呼ばれるサブワードのシーケンスに所定のテキストを分解するプロセスであるトークン化は、言語モデルの開発において重要なコンポーネントの1つである。
我々は、与えられた自己回帰言語モデルを任意に小さな語彙を持つ言語に変換する、損失のない語彙還元の理論的枠組みを確立する。
アプリケーションとして、異なるトークン化を持つ言語モデルが、最大共通語彙によって互いに効率的に協調できることを実証する。
- 参考スコア(独自算出の注目度): 21.015330660860865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization -- the process of decomposing a given text into a sequence of subwords called tokens -- is one of the key components in the development of language models. Particularly, auto-regressive language models generate texts token by token, i.e., by predicting the next-token distribution given the previous ones, and thus tokenization directly affects their efficiency in text generation. Since each language model has their own vocabulary as a set of possible tokens, they struggle to cooperate with each other at the level of next-token distributions such as model ensemble. In this paper, we establish a theoretical framework of lossless vocabulary reduction, which efficiently converts a given auto-regressive language model into the one with an arbitrarily small vocabulary without any loss in accuracy. As an application, we demonstrate that language models with different tokenization can cooperate with each other efficiently through their maximal common vocabulary.
- Abstract(参考訳): トークンと呼ばれるサブワード列に与えられたテキストを分解するプロセスであるトークン化は、言語モデルの開発において重要な要素の1つである。
特に、自動回帰言語モデルは、前のものから与えられた次のトークン分布を予測することによって、トークンによってテキストトークンを生成し、それによって、トークン化はテキスト生成の効率に直接影響する。
各言語モデルは、可能なトークンの集合として独自の語彙を持っているため、モデルアンサンブルのような次のトークン分布のレベルにおいて、互いに協力し合うのに苦労する。
本稿では,任意の自己回帰型言語モデルを,精度を損なうことなく任意に小さな語彙を持つ言語に効率的に変換する,損失のない語彙削減の理論的枠組みを確立する。
アプリケーションとして、異なるトークン化を持つ言語モデルが、最大共通語彙によって互いに効率的に協調できることを実証する。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。