論文の概要: Length Generalization in Arithmetic Transformers
- arxiv url: http://arxiv.org/abs/2306.15400v1
- Date: Tue, 27 Jun 2023 11:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 13:44:02.933810
- Title: Length Generalization in Arithmetic Transformers
- Title(参考訳): 算数変換器における長さ一般化
- Authors: Samy Jelassi, St\'ephane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu,
Yuanzhi Li, Fran\c{c}ois Charton
- Abstract要約: 本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
- 参考スコア(独自算出の注目度): 41.62455986786115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine how transformers cope with two challenges: learning basic integer
arithmetic, and generalizing to longer sequences than seen during training. We
find that relative position embeddings enable length generalization for simple
tasks, such as addition: models trained on $5$-digit numbers can perform
$15$-digit sums. However, this method fails for multiplication, and we propose
train set priming: adding a few ($10$ to $50$) long sequences to the training
set. We show that priming allows models trained on $5$-digit $\times$ $3$-digit
multiplications to generalize to $35\times 3$ examples. We also show that
models can be primed for different generalization lengths, and that the priming
sample size scales as the logarithm of the training set size. Finally, we
discuss potential applications of priming beyond arithmetic.
- Abstract(参考訳): 本稿では,変圧器が基本的な整数演算を学習し,学習中に見られるよりも長い列に一般化する2つの課題について検討する。
5ドル桁の数値で訓練されたモデルは15ドル桁の和を実行することができる。
しかし、この手法は乗算に失敗するため、トレーニングセットにいくつかの長いシーケンス($10$から$50$)を追加するためのプリミングのトレインセットを提案する。
プライミングでは、トレーニングされたモデルが$35\times $\times$ $3$-digitの乗算によって35\times 3$の例に一般化できる。
また,異なる一般化長に対してモデルがプライミングされ,プライミングサンプルサイズはトレーニングセットサイズの対数としてスケールすることを示した。
最後に,算術以外のプライミングの応用の可能性について論じる。
関連論文リスト
- Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count [19.148785141454642]
トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。
本研究は,算術変換器で最初に達成された2~3倍の長さのタスクを一般化する。
論文 参考訳(メタデータ) (2024-10-21T08:49:51Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Improving Length-Generalization in Transformers via Task Hinting [42.95479331339189]
特に、タスクで訓練された変換器モデルの性能は、同じ問題の長いインスタンスに適用した場合、急激に低下する。
本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-01T16:57:40Z) - Learning the greatest common divisor: explaining transformer predictions [8.430481660019451]
小型変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。
このモデルは整数と小さな素数を表すために使用される基底の因子の積である整数の$mathcal D$を学習し、両方の入力を分割する$mathcal D$の最大の要素を予測する。
論文 参考訳(メタデータ) (2023-08-29T19:38:41Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。