論文の概要: FoNE: Precise Single-Token Number Embeddings via Fourier Features
- arxiv url: http://arxiv.org/abs/2502.09741v1
- Date: Thu, 13 Feb 2025 19:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:40.398091
- Title: FoNE: Precise Single-Token Number Embeddings via Fourier Features
- Title(参考訳): FoNE: フーリエ機能によるシングルトークンの正確な埋め込み
- Authors: Tianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan,
- Abstract要約: 本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。
FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。
6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。
FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
- 参考スコア(独自算出の注目度): 51.17846016593835
- License:
- Abstract: Large Language Models (LLMs) typically represent numbers using multiple tokens, which requires the model to aggregate these tokens to interpret numerical values. This fragmentation makes both training and inference less efficient and adversely affects the model's performance on number-related tasks. Inspired by the observation that pre-trained LLMs internally learn Fourier-like features for number tokens, we propose Fourier Number Embedding (FoNE), a novel method that directly maps numbers into the embedding space with their Fourier features. FoNE encodes each number as a single token with only two embedding dimensions per digit, effectively capturing numerical values without fragmentation. This compact representation accelerates both training and inference. Compared to traditional subword and digit-wise embeddings, FoNE not only reduces computational overhead but also achieves higher accuracy across various numerical tasks including addition, subtraction and multiplication. On 6-digit decimal addition, FoNE requires 64$\times$ less data to achieve 99% accuracy than subword and digit-wise embeddings while using 3$\times$ and 6$\times$ fewer tokens per number, respectively. Furthermore, FoNE is the only method that yields 100% accuracy on over 100,000 test examples for addition, subtraction, and multiplication. The codes and visualization are available at https://fouriernumber.github.io/.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常、複数のトークンを使って数値を表現し、数値を解釈するためにこれらのトークンを集約する必要がある。
この断片化により、トレーニングと推論の両方が効率が悪くなり、数に関連したタスクにおけるモデルの性能に悪影響を及ぼす。
予め学習したLLMが数値トークンに対してフーリエのような特徴を内部的に学習する観察に触発されて、フーリエ数埋め込み(FoNE)を提案する。
FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。
このコンパクトな表現は、トレーニングと推論の両方を加速させる。
従来のサブワードや桁単位の埋め込みと比較すると、FoNEは計算オーバーヘッドを減らすだけでなく、加算、減算、乗算を含む様々な数値タスクの精度も向上する。
6桁の10進法で、FoNEは64$\times$より少ないデータを必要とし、それぞれ3$\times$と6$\times$より少ないトークン数で、サブワードと桁の埋め込みの99%の精度を達成する。
さらに、FoNEは、加算、減算、乗算の10万を超えるテスト例に対して100%精度を得る唯一の方法である。
コードと視覚化はhttps://fouriernumber.github.io/.com/で公開されている。
関連論文リスト
- Interleaving Text and Number Embeddings to Solve Mathemathics Problems [0.0]
我々は、より表現力のある数値埋め込みを導入することで、近年のアプローチを構築している。
本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
論文 参考訳(メタデータ) (2024-10-25T07:21:57Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
数値推論において、数自体を理解することは、既存の言語モデルにとって依然として課題である。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning [27.584258258635945]
言語モデルは数値データを扱い、算術演算を行うのに苦労する。
本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
論文 参考訳(メタデータ) (2024-03-30T19:46:59Z) - Tokenization counts: the impact of tokenization on arithmetic in
frontier LLMs [3.6722413665749674]
トークン化とは、入力テキストを入力トークンに分割することである。
この選択が算術的タスクを用いて数値推論に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-22T18:14:09Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。