論文の概要: Positional Description Matters for Transformers Arithmetic
- arxiv url: http://arxiv.org/abs/2311.14737v1
- Date: Wed, 22 Nov 2023 00:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:44:46.183203
- Title: Positional Description Matters for Transformers Arithmetic
- Title(参考訳): 変圧器算術における位置記述事項
- Authors: Ruoqi Shen, S\'ebastien Bubeck, Ronen Eldan, Yin Tat Lee, Yuanzhi Li,
Yi Zhang
- Abstract要約: トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
- 参考スコア(独自算出の注目度): 58.4739272381373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, central to the successes in modern Natural Language Processing,
often falter on arithmetic tasks despite their vast capabilities --which
paradoxically include remarkable coding abilities. We observe that a crucial
challenge is their naive reliance on positional information to solve arithmetic
problems with a small number of digits, leading to poor performance on larger
numbers. Herein, we delve deeper into the role of positional encoding, and
propose several ways to fix the issue, either by modifying the positional
encoding directly, or by modifying the representation of the arithmetic task to
leverage standard positional encoding differently. We investigate the value of
these modifications for three tasks: (i) classical multiplication, (ii) length
extrapolation in addition, and (iii) addition in natural language context. For
(i) we train a small model on a small dataset (100M parameters and 300k
samples) with remarkable aptitude in (direct, no scratchpad) 15 digits
multiplication and essentially perfect up to 12 digits, while usual training in
this context would give a model failing at 4 digits multiplication. In the
experiments on addition, we use a mere 120k samples to demonstrate: for (ii)
extrapolation from 10 digits to testing on 12 digits numbers while usual
training would have no extrapolation, and for (iii) almost perfect accuracy up
to 5 digits while usual training would be correct only up to 3 digits (which is
essentially memorization with a training set of 120k samples).
- Abstract(参考訳): トランスフォーマーは、現代の自然言語処理の成功の中心であり、その膨大な能力にもかかわらず、算術的なタスクに固執することが多い。
決定的な課題は、少数の桁数で算術問題を解くために位置情報に頼ることであり、大きな数では性能が劣るということである。
本稿では, 位置符号化の役割を深く掘り下げ, 位置符号化を直接修正するか, あるいは算術的タスクの表現を変更し, 標準的な位置符号化を別々に活用することによって, 問題を解決する方法をいくつか提案する。
3つのタスクに対するこれらの修正の価値について検討する。
(i)古典的な乗法
(ii)長さの補間、及び
(iii)自然言語の文脈での追加。
のために
(i)小さなデータセット(100Mパラメータと300kサンプル)上の小さなモデルをトレーニングし、(直接、スクラッチパッドなしで)15桁の乗算に顕著な適性を持ち、本質的に12桁まで完璧である一方、この文脈での通常のトレーニングは、4桁の乗算で失敗するモデルを与える。
追加実験では、わずか120kのサンプルを使って示す。
(ii) 10桁から12桁の数字への外挿は、通常の訓練では外挿がなく、
(iii) ほぼ完全な精度は5桁までだが、通常のトレーニングでは3桁までしか修正できない(これは基本的に120kサンプルのトレーニングセットで記憶される)。
関連論文リスト
- Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks [27.020990219204343]
大規模言語モデル(LLM)はm桁乗算タスクによってn桁の最初の桁を正確かつ確実に予測することができる。
実際には LLM は m-digit 乗算によって n-digit の最後の桁を正しくあるいは確実に予測できないことが多い。
LLMが正しい高次桁の全てに条件付けされている場合、後者のタスクはより堅牢に解決できることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:34:39Z) - Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks [32.81985604969825]
本稿では,加法や乗算などの算術的なタスクにおいて,トランスフォーマーが長さを超越して一般化できないことを示す。
この失敗の背後にある大きな理由は、数字とテキストの間の大きな違いである。
本稿では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置符号化によってモデルに明示的にエンコードすることを提案する。
論文 参考訳(メタデータ) (2024-06-04T02:00:07Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - GPT Can Solve Mathematical Problems Without a Calculator [24.114064917059565]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。
また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文 参考訳(メタデータ) (2023-09-06T06:18:16Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Train Short, Test Long: Attention with Linear Biases Enables Input
Length Extrapolation [62.51758040848735]
本稿では,リニアバイアス(ALiBi)を用いた簡易かつ効率的な検査法を提案する。
ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。
本手法では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して,13億のパラメータモデルをトレーニングすることが可能であり,長さ2048の入力に基づいてトレーニングされた正弦波位置埋め込みモデルと同じ難易度を実現する。
論文 参考訳(メタデータ) (2021-08-27T17:35:06Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。