論文の概要: Value-Aware Numerical Representations for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2601.09706v1
- Date: Wed, 14 Jan 2026 18:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.512209
- Title: Value-Aware Numerical Representations for Transformer Language Models
- Title(参考訳): 変圧器言語モデルに対する値認識型数値表現
- Authors: Andreea Dutulescu, Stefan Ruseti, Mihai Dascalu,
- Abstract要約: トランスフォーマーベースの言語モデルは、しばしば数学的推論ベンチマークにおいて強力な結果を得る。
中心的な制限は、数値が数値を明示的にエンコードしないシンボルトークンとして処理されることである。
本稿では,標準的なトークン化入力を専用のプレフィックストークンで拡張する値認識数値表現を提案する。
- 参考スコア(独自算出の注目度): 1.2680800636608986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models often achieve strong results on mathematical reasoning benchmarks while remaining fragile on basic numerical understanding and arithmetic operations. A central limitation is that numbers are processed as symbolic tokens whose embeddings do not explicitly encode numerical value, leading to systematic errors. We introduce a value-aware numerical representation that augments standard tokenized inputs with a dedicated prefix token whose embedding is explicitly conditioned on the underlying numerical value. This mechanism injects magnitude information directly into the model's input space while remaining compatible with existing tokenizers and decoder-only Transformer architectures. Evaluation on arithmetic tasks shows that the proposed approach outperforms baselines across numerical formats, tasks, and operand lengths. These results indicate that explicitly encoding numerical value is an effective and efficient way to improve fundamental numerical robustness in language models.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、基本的な数値理解と算術演算に脆弱なまま、数学的推論ベンチマークで強い結果を得ることが多い。
中心的な制限は、数値が数値を明示的にエンコードしないシンボリックトークンとして処理され、体系的な誤りをもたらすことである。
本稿では,埋め込みが基礎となる数値に明示的に条件付けされている専用プレフィックストークンを用いて,標準的なトークン化入力を増強する値認識数値表現を提案する。
このメカニズムは、既存のトークン化器やデコーダのみのトランスフォーマーアーキテクチャと互換性を保ちながら、モデルの入力空間に直接マグニチュード情報を注入する。
算術的タスクの評価は,提案手法が数値形式,タスク,オペランド長にまたがるベースラインよりも優れていることを示す。
これらの結果は,言語モデルの基本的数値ロバスト性を改善するために,数値を明示的に符号化することが効果的かつ効率的な方法であることを示している。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。
基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。
既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-16T10:48:28Z) - How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
数値推論において、数自体を理解することは、既存の言語モデルにとって依然として課題である。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - xVal: A Continuous Numerical Tokenization for Scientific Language Models [41.26924657687872]
我々は、言語モデル内で数値を継続的にトークン化する戦略であるxValを紹介した。
我々は、テキストとしてフォーマットされたさまざまな科学的データセットに基づいて、スクラッチから特別に修正された言語モデルを訓練する。
論文 参考訳(メタデータ) (2023-10-04T17:26:16Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。