論文の概要: Transformers Can Do Arithmetic with the Right Embeddings
- arxiv url: http://arxiv.org/abs/2405.17399v2
- Date: Mon, 23 Dec 2024 12:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:13.922239
- Title: Transformers Can Do Arithmetic with the Right Embeddings
- Title(参考訳): トランスフォーマーは正しい埋め込みで算数ができる
- Authors: Sean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein,
- Abstract要約: 算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
- 参考スコア(独自算出の注目度): 75.66545271398704
- License:
- Abstract: The poor performance of transformers on arithmetic tasks seems to stem in large part from their inability to keep track of the exact position of each digit inside of a large span of digits. We mend this problem by adding an embedding to each digit that encodes its position relative to the start of the number. In addition to the boost these embeddings provide on their own, we show that this fix enables architectural modifications such as input injection and recurrent layers to improve performance even further. With positions resolved, we can study the logical extrapolation ability of transformers. Can they solve arithmetic problems that are larger and more complex than those in their training data? We find that training on only 20 digit numbers with a single GPU for one day, we can reach state-of-the-art performance, achieving up to 99% accuracy on 100 digit addition problems. Finally, we show that these gains in numeracy also unlock improvements on other multi-step reasoning tasks including sorting and multiplication.
- Abstract(参考訳): 算術的タスクにおける変換器の性能の低下は、大きな桁の内にある各桁の正確な位置を追跡できないことが原因のようである。
我々は、各桁に埋め込みを加えて、その数字の開始に対してその位置を符号化することでこの問題を解決した。
この修正によって、インプットインジェクションやリカレントレイヤなどのアーキテクチャ変更により、パフォーマンスがさらに向上することを示す。
位置解決により, 変圧器の論理的外挿能力について検討できる。
彼らは、トレーニングデータよりも大きく、より複雑である算術的な問題を解けるだろうか?
たった20桁の数値を1日で1つのGPUでトレーニングすれば、100桁の加算問題に対して最大99%の精度で最先端のパフォーマンスを達成できることがわかった。
最後に、これらの増加が、ソートや乗算を含む他の多段階推論タスクの改善を解放することを示す。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks [5.522116934552708]
大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Dissecting Multiplication in Transformers: Insights into LLMs [23.109124772063574]
本稿では,この領域における変圧器の不完全性を探索し,説明するために,典型的な算術的タスクである整数乗法に焦点を当てる。
n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。
乗算タスクにおける変換器の性能向上のための改良を提案する。
論文 参考訳(メタデータ) (2024-07-22T04:07:26Z) - Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure [42.89515104473087]
本稿では,タスクの構造をトランスフォーマーの位置エンコーディングに組み込む,シンプルで効果的な位置結合法を提案する。
1桁から30桁の加算でトレーニングされたモデルでは、最大200桁の加算を一般化できることを示す。
また,Nx2乗算や2次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-31T08:13:35Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Multiplication-Free Transformer Training via Piecewise Affine Operations [44.99157696237478]
本稿では,浮動小数点数のビット表現を整数として加えることで実現した,安価なアフィン近似に置き換える。
変換器は、視覚と言語の両方のタスクに対して、結果の修正された行列乗法で、ほとんど、あるいは全く性能に影響を与えずに訓練できることが示される。
論文 参考訳(メタデータ) (2023-05-26T18:28:28Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。