論文の概要: Language Models Do Not Embed Numbers Continuously
- arxiv url: http://arxiv.org/abs/2510.08009v1
- Date: Thu, 09 Oct 2025 09:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.993218
- Title: Language Models Do Not Embed Numbers Continuously
- Title(参考訳): 言語モデルは連続的に数字を埋め込まない
- Authors: Alex O. Davies, Roussel Nzoyem, Nirav Ajmeri, Telmo M. Silva Filho,
- Abstract要約: 言語モデルは, 数値空間を非連続性として表現するだけでなく, 有意なノイズをもたらすことを示す。
この研究の発見は、埋め込みモデルが使われる多くの領域に影響を及ぼす。
- 参考スコア(独自算出の注目度): 5.9964446074327995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research has extensively studied how large language models manipulate integers in specific arithmetic tasks, and on a more fundamental level, how they represent numeric values. These previous works have found that language model embeddings can be used to reconstruct the original values, however, they do not evaluate whether language models actually model continuous values as continuous. Using expected properties of the embedding space, including linear reconstruction and principal component analysis, we show that language models not only represent numeric spaces as non-continuous but also introduce significant noise. Using models from three major providers (OpenAI, Google Gemini and Voyage AI), we show that while reconstruction is possible with high fidelity ($R^2 \geq 0.95$), principal components only explain a minor share of variation within the embedding space. This indicates that many components within the embedding space are orthogonal to the simple numeric input space. Further, both linear reconstruction and explained variance suffer with increasing decimal precision, despite the ordinal nature of the input space being fundamentally unchanged. The findings of this work therefore have implications for the many areas where embedding models are used, in-particular where high numerical precision, large magnitudes or mixed-sign values are common.
- Abstract(参考訳): 近年の研究では、大きな言語モデルが特定の算術的タスクにおいて整数をどのように操作するか、そしてより基本的なレベルで、どのように数値値を表現するかが研究されている。
これらの以前の研究は、言語モデル埋め込みが元の値の再構築に使えることを発見したが、言語モデルが実際に連続的な値をモデル化しているかは評価していない。
線形再構成や主成分分析を含む埋め込み空間の期待特性を用いて, 言語モデルが数値空間を非連続性として表現するだけでなく, 有意なノイズをもたらすことを示す。
主要な3つのプロバイダ(OpenAI、Google Gemini、Voyage AI)のモデルを使用することで、リコンストラクションは高い忠実度(R^2 \geq 0.95$)で可能だが、主要なコンポーネントは埋め込み空間内のわずかな変更しか説明できないことを示す。
このことは、埋め込み空間内の多くの成分が単純な数値入力空間に直交していることを示している。
さらに、線形再構成と説明分散は、入力空間の順序性が根本的に変化しても、十進精度の増大に悩まされる。
この研究の結果は、埋め込みモデルが用いられる多くの領域、特に高い数値精度、大小、混合符号値が一般的である領域に影響を及ぼす。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Understanding In-context Learning of Addition via Activation Subspaces [73.8295576941241]
そこで本研究では,入力に整数$k$を追加するという真の予測規則を,数ショット学習タスクの構造化されたファミリについて検討する。
次に、次元の減少と分解を通じて、個々の頭部の詳細な分析を行う。
この結果から,前進パスを横断する局所化頭部の低次元部分空間の追跡が,言語モデルにおける微粒化計算構造に対する洞察を与えることを示す。
論文 参考訳(メタデータ) (2025-05-08T11:32:46Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Exploring Internal Numeracy in Language Models: A Case Study on ALBERT [12.431248361369466]
本稿では,トランスフォーマーに基づく言語モデルが内部的に数値データをどう表現するかを研究する手法を提案する。
我々は、これらのモデルが数と順序に対応するトークンを表現するために使用する学習された埋め込みを抽出する。
本研究は,テキストをモデル化するために純粋に訓練された言語モデルを用いて基礎的な数学的概念を導出し,量的推論と交差するNLPアプリケーションへの道を開くことを示唆する。
論文 参考訳(メタデータ) (2024-04-25T12:36:19Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。