論文の概要: Can transformers learn the greatest common divisor?
- arxiv url: http://arxiv.org/abs/2308.15594v1
- Date: Tue, 29 Aug 2023 19:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 15:31:40.609331
- Title: Can transformers learn the greatest common divisor?
- Title(参考訳): トランスフォーマーは最大の共通因子を学べるのか?
- Authors: Fran\c{c}ois Charton
- Abstract要約: 2つの正の整数の最大共通因子(GCD)を計算するための小型変圧器の能力について検討する。
トレーニング分布と表現ベースを慎重に選択すると、モデルは98%の精度を達成し、100個目のGCDのうち91個を正確に予測する。
- 参考スコア(独自算出の注目度): 0.8547032097715571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I investigate the capability of small transformers to compute the greatest
common divisor (GCD) of two positive integers. When the training distribution
and the representation base are carefully chosen, models achieve 98% accuracy
and correctly predict 91 of the 100 first GCD. Model predictions are
deterministic and fully interpretable. During training, the models learn to
cluster input pairs with the same GCD, and classify them by their divisors.
Basic models, trained from uniform operands encoded on small bases, only
compute a handful of GCD (up to 38 out of 100): the products of divisors of the
base. Longer training and larger bases allow some models to "grok" small prime
GCD. Training from log-uniform operands boosts performance to 73 correct GCD,
and balancing the training distribution of GCD, from inverse square to
log-uniform, to 91 GCD. Training models from a uniform distribution of GCD
breaks the deterministic model behavior.
- Abstract(参考訳): 2つの正の整数の最大共通因子(GCD)を計算するための小型変圧器の能力について検討する。
トレーニング分布と表現ベースを慎重に選択すると、98%の精度を達成し、100個の第1gcdのうち91を正しく予測する。
モデル予測は決定論的であり、完全に解釈可能である。
トレーニング中、モデルは同じGCDで入力ペアをクラスタリングし、ディバイザによって分類する。
基本モデルは、小さなベースで符号化された一様オペランドから訓練され、基礎のディバイザの積である1握りのgcd(最大で100中38個)のみを計算する。
より長いトレーニングとより大きなベースにより、いくつかのモデルは小さな素数 GCD を "グロク" することができる。
対数ユニフォームオペランドからのトレーニングは、パフォーマンスを73の正しいGCDに向上させ、逆2乗から対数ユニフォームまでのGCDのトレーニング分布を91のGCDにバランスさせる。
GCDの均一分布からのトレーニングモデルは決定論的モデル挙動を破る。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Models That Prove Their Own Correctness [2.6570606951261015]
我々は,その出力の正しさを証明する自己証明モデルを,対話的証明を通じて検証アルゴリズムとして$V$で訓練する。
ランダムな入力に対して高い確率で、モデルは正しい出力 *and* を生成し、その正しさを$V!$に証明する。
学習方法は,GCDを演算する自己証明変換器を訓練するために用いられ,その解答の正しさが証明される。
論文 参考訳(メタデータ) (2024-05-24T17:10:08Z) - Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。
余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-01-19T23:53:59Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Learning Division with Neural Arithmetic Logic Modules [2.019622939313173]
2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。
我々はニューラル・リシパル・ユニット(NRU)とニューラル・マルチプリケーティブ・リシパル・ユニット(NMRU)と呼ばれる2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T11:56:57Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Learning elliptic partial differential equations with randomized linear
algebra [2.538209532048867]
ほぼ確実に収束する$G$への近似を構築することができることを示す。
0Gamma_epsilonleq 1$はトレーニングデータセットの品質を特徴付ける。
論文 参考訳(メタデータ) (2021-01-31T16:57:59Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。