論文の概要: Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks
- arxiv url: http://arxiv.org/abs/2102.13019v1
- Date: Thu, 25 Feb 2021 17:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 18:22:38.396783
- Title: Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks
- Title(参考訳): 簡単な算術課題による変圧器の限界の検討
- Authors: Rodrigo Nogueira, Zhiying Jiang, Jimmy Li
- Abstract要約: その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
- 参考スコア(独自算出の注目度): 10.23804850480924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform arithmetic tasks is a remarkable trait of human
intelligence and might form a critical component of more complex reasoning
tasks. In this work, we investigate if the surface form of a number has any
influence on how sequence-to-sequence language models learn simple arithmetic
tasks such as addition and subtraction across a wide range of values. We find
that how a number is represented in its surface form has a strong influence on
the model's accuracy. In particular, the model fails to learn addition of
five-digit numbers when using subwords (e.g., "32"), and it struggles to learn
with character-level representations (e.g., "3 2"). By introducing position
tokens (e.g., "3 10e1 2"), the model learns to accurately add and subtract
numbers up to 60 digits. We conclude that modern pretrained language models can
easily learn arithmetic from very few examples, as long as we use the proper
surface representation. This result bolsters evidence that subword tokenizers
and positional encodings are components in current transformer designs that
might need improvement. Moreover, we show that regardless of the number of
parameters and training examples, models cannot learn addition rules that are
independent of the length of the numbers seen during training. Code to
reproduce our experiments is available at
https://github.com/castorini/transformers-arithmetic
- Abstract(参考訳): 算術タスクを実行する能力は、人間の知性の驚くべき特徴であり、より複雑な推論タスクの重要な構成要素となる可能性がある。
本研究では,数の表面形式が,列列から列への言語モデルが,広い範囲の値に対する加算や減算といった単純な算術的タスクをどのように学習するかについて検討する。
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
特に、サブワード(例えば「32」)を使用する場合、5桁の数字を追加するのに失敗し、文字レベルの表現(例えば「3 2」)を学ぶのに苦労している。
位置トークン("3 10e1 2"など)を導入することで、モデルは60桁までの正確な数字の追加と減算を学習する。
我々は,現代事前学習型言語モデルは,適切な曲面表現を使用する限り,ごく少数の例から容易に算術を学習できると結論付けた。
この結果は、サブワードのトークン化と位置符号化が現在のトランスフォーマー設計の要素であることを示す証拠となる。
さらに、パラメータの数やトレーニング例に関わらず、トレーニング中に見られる数の長さに依存しない追加ルールを学習できないことを示す。
実験を再現するコードはhttps://github.com/castorini/transformers-arithmeticで公開されている。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Understanding Addition in Transformers [2.44755919161855]
本稿では,n桁整数加算のために訓練された1層トランスフォーマーモデルの深さ解析について述べる。
本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Is Integer Arithmetic Enough for Deep Learning Training? [2.9136421025415205]
浮動小数点演算を低ビット整数演算に置き換えることは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。
本稿では,フォワードパス,バックプロパゲーション,勾配降下を含む完全関数型整数学習パイプラインを提案する。
提案手法は, 視覚変換器, オブジェクト検出, セマンティックセグメンテーションなど, 多様なタスクに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-18T22:36:57Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。