論文の概要: Efficient numeracy in language models through single-token number embeddings
- arxiv url: http://arxiv.org/abs/2510.06824v1
- Date: Wed, 08 Oct 2025 09:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.399088
- Title: Efficient numeracy in language models through single-token number embeddings
- Title(参考訳): シングルトーケン数埋め込みによる言語モデルの効率的な数値化
- Authors: Linus Kreitner, Paul Hager, Jonathan Mengedoht, Georgios Kaissis, Daniel Rueckert, Martin J. Menten,
- Abstract要約: 我々は,フロンティア言語モデル (LLM) が基本計算さえも解くのに大量の推論トークンを必要とすることを示した。
我々は、IEEE 754バイナリ浮動小数点表現を用いて、任意の数値を単一のトークンに埋め込む新しいトークン化戦略BitTokensを提案する。
- 参考スコア(独自算出の注目度): 29.22332468518668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To drive progress in science and engineering, large language models (LLMs) must be able to process large amounts of numerical data and solve long calculations efficiently. This is currently only possible through the use of external tools or extensive reasoning chains, either limiting the numerical intuition of LLMs or limiting the length of problems they can solve. We show that frontier LLMs require excessive amounts of reasoning tokens to solve even basic calculations, which is exacerbated by their tokenization strategies that split single numbers into multiple tokens. This motivates the need for efficient and effective single-token number encodings. We introduce a set of desiderata for such encodings and show that existing approaches fail to fulfill them. To address these shortcomings, we propose BitTokens, a novel tokenization strategy that embeds any number into a single token using its IEEE 754 binary floating-point representation. Through extensive experiments we show that our BitTokens allow even small language models to learn algorithms that solve basic arithmetic operations nearly perfectly. This newly gained efficiency could expand the length and complexity of problems language models can solve.
- Abstract(参考訳): 科学と工学の進歩を推し進めるためには、大きな言語モデル(LLM)が大量の数値データを処理し、長い計算を効率的に解く必要がある。
これは現在、外部ツールまたは広範囲な推論チェーンを使用することでのみ可能であり、LLMの数値直観を制限するか、解決可能な問題の長さを制限するかのいずれかである。
我々は,フロンティア LLM は基本計算さえも解くのに大量の推論トークンを必要とすることを示し,これは単一数を複数のトークンに分割するトークン化戦略によってさらに悪化することを示した。
これにより、効率的かつ効果的なシングルトークン数エンコーディングの必要性がもたらされる。
このようなエンコーディングのためのデシラタのセットを導入し、既存のアプローチがそれらを満たすことができないことを示す。
このような欠点に対処するため、我々は、IEEE 754バイナリ浮動小数点表現を用いて、任意の数値を単一のトークンに埋め込む新しいトークン化戦略BitTokensを提案する。
広範な実験を通して、BitTokensは小さな言語モデルでも、基本的な算術演算をほぼ完璧に解くアルゴリズムを学習できることを示した。
この新たな効率性は、言語モデルで解ける問題の長さと複雑さを拡大する可能性がある。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - FoNE: Precise Single-Token Number Embeddings via Fourier Features [51.17846016593835]
本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。
FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。
6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。
FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
論文 参考訳(メタデータ) (2025-02-13T19:54:59Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5464748274973026]
トークンレベルで純粋に動作する回帰的な損失を示す。
我々の提案したナンバートークン損失(NTL)は2つのフレーバーを持ち、$L_p$ノルムまたはワッサーシュタイン距離を最小化する。
提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。
論文 参考訳(メタデータ) (2024-11-04T13:43:24Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Tokenization counts: the impact of tokenization on arithmetic in
frontier LLMs [3.6722413665749674]
トークン化とは、入力テキストを入力トークンに分割することである。
この選択が算術的タスクを用いて数値推論に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-22T18:14:09Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。