論文の概要: Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks
- arxiv url: http://arxiv.org/abs/2102.13019v1
- Date: Thu, 25 Feb 2021 17:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 18:22:38.396783
- Title: Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks
- Title(参考訳): 簡単な算術課題による変圧器の限界の検討
- Authors: Rodrigo Nogueira, Zhiying Jiang, Jimmy Li
- Abstract要約: その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
- 参考スコア(独自算出の注目度): 10.23804850480924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform arithmetic tasks is a remarkable trait of human
intelligence and might form a critical component of more complex reasoning
tasks. In this work, we investigate if the surface form of a number has any
influence on how sequence-to-sequence language models learn simple arithmetic
tasks such as addition and subtraction across a wide range of values. We find
that how a number is represented in its surface form has a strong influence on
the model's accuracy. In particular, the model fails to learn addition of
five-digit numbers when using subwords (e.g., "32"), and it struggles to learn
with character-level representations (e.g., "3 2"). By introducing position
tokens (e.g., "3 10e1 2"), the model learns to accurately add and subtract
numbers up to 60 digits. We conclude that modern pretrained language models can
easily learn arithmetic from very few examples, as long as we use the proper
surface representation. This result bolsters evidence that subword tokenizers
and positional encodings are components in current transformer designs that
might need improvement. Moreover, we show that regardless of the number of
parameters and training examples, models cannot learn addition rules that are
independent of the length of the numbers seen during training. Code to
reproduce our experiments is available at
https://github.com/castorini/transformers-arithmetic
- Abstract(参考訳): 算術タスクを実行する能力は、人間の知性の驚くべき特徴であり、より複雑な推論タスクの重要な構成要素となる可能性がある。
本研究では,数の表面形式が,列列から列への言語モデルが,広い範囲の値に対する加算や減算といった単純な算術的タスクをどのように学習するかについて検討する。
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
特に、サブワード(例えば「32」)を使用する場合、5桁の数字を追加するのに失敗し、文字レベルの表現(例えば「3 2」)を学ぶのに苦労している。
位置トークン("3 10e1 2"など)を導入することで、モデルは60桁までの正確な数字の追加と減算を学習する。
我々は,現代事前学習型言語モデルは,適切な曲面表現を使用する限り,ごく少数の例から容易に算術を学習できると結論付けた。
この結果は、サブワードのトークン化と位置符号化が現在のトランスフォーマー設計の要素であることを示す証拠となる。
さらに、パラメータの数やトレーニング例に関わらず、トレーニング中に見られる数の長さに依存しない追加ルールを学習できないことを示す。
実験を再現するコードはhttps://github.com/castorini/transformers-arithmeticで公開されている。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks [5.522116934552708]
大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Is Integer Arithmetic Enough for Deep Learning Training? [2.9136421025415205]
浮動小数点演算を低ビット整数演算に置き換えることは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。
本稿では,フォワードパス,バックプロパゲーション,勾配降下を含む完全関数型整数学習パイプラインを提案する。
提案手法は, 視覚変換器, オブジェクト検出, セマンティックセグメンテーションなど, 多様なタスクに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-18T22:36:57Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。