論文の概要: Interleaving Text and Number Embeddings to Solve Mathemathics Problems
- arxiv url: http://arxiv.org/abs/2410.19353v1
- Date: Fri, 25 Oct 2024 07:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:58.832685
- Title: Interleaving Text and Number Embeddings to Solve Mathemathics Problems
- Title(参考訳): 数学問題を解くためのインターリービングテキストと数字埋め込み
- Authors: Marvin Alberts, Gianmarco Gabrieli, Irina Espejo Morales,
- Abstract要約: 我々は、より表現力のある数値埋め込みを導入することで、近年のアプローチを構築している。
本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Integrating text and numbers effectively is a crucial step towards enhancing Large Language Models (LLMs) capabilities in assisting in scientific tasks. While most current approaches rely on discrete tokenization of numbers, for instance, conversion to scientific notation or base 10-decomposition, a recent approach proposed a continuous numerical encoding as an inductive bias. In this paper, we build upon this approach by introducing more expressive numerical embeddings. Our method addresses key shortcomings, including the elimination of numerical artefacts and the ability to handle a wide range of magnitudes without clipping. Our work presents two key contributions. First, we employ an MLP to assign distinct directions in the embedding space to different numbers. Our second contribution is the introduction of a routing layer that differentiates between numerical and text embeddings. We hypothesise that this combined approach enables the model to distinguish between text and number distributions while maintaining its capacity for arithmetic operations. Using only a 45 M parameter encoder-decoder architecture our method achieves a $R^2$=0.9988 over a wide range of magnitude ($10^{-3},10^{8}$). In addition, we empirically observe a reduction of the numerical artefacts and biases observed compared to the baselines.
- Abstract(参考訳): テキストと数字を効果的に統合することは、科学的なタスクを支援するための大規模言語モデル(LLM)機能を強化するための重要なステップである。
現在のほとんどのアプローチは、例えば科学的な表記への変換やベース10分割への変換など、数値の離散的なトークン化に依存しているが、最近のアプローチでは、帰納的バイアスとして連続的な数値エンコーディングを提案した。
本稿では,より表現力のある数値埋め込みを導入することで,この手法を構築する。
本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
私たちの仕事は2つの重要な貢献をしている。
まず、埋め込み空間の異なる方向を異なる数に割り当てるためにMLPを用いる。
2つ目のコントリビューションは、数値とテキストの埋め込みを区別するルーティング層の導入です。
この組み合わせにより、算術演算の能力を維持しつつ、テキストと数字の分布を区別することができると仮定する。
45Mのパラメータエンコーダ-デコーダアーキテクチャのみを用いて、この手法は、広範囲にまたがるR^2$=0.9988($10^{-3},10^{8}$)を達成する。
さらに,本研究では,基準値と比較して観測された数値アーチファクトとバイアスの低減を実証的に観察した。
関連論文リスト
- How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Exploring Equation as a Better Intermediate Meaning Representation for
Numerical Reasoning [53.2491163874712]
我々は数値推論の問題を解くために方程式をIMRとして利用する。
本稿では、方程式(ブリッジ)の生成を分解したブースティング数値推論法を提案する。
本手法では,GSM8K,SVAMP,Algebraデータセットの2.2%,0.9%,1.7%の性能向上を実現している。
論文 参考訳(メタデータ) (2023-08-21T09:35:33Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。