論文の概要: Can transformers learn the greatest common divisor?
- arxiv url: http://arxiv.org/abs/2308.15594v1
- Date: Tue, 29 Aug 2023 19:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 15:31:40.609331
- Title: Can transformers learn the greatest common divisor?
- Title(参考訳): トランスフォーマーは最大の共通因子を学べるのか?
- Authors: Fran\c{c}ois Charton
- Abstract要約: 2つの正の整数の最大共通因子(GCD)を計算するための小型変圧器の能力について検討する。
トレーニング分布と表現ベースを慎重に選択すると、モデルは98%の精度を達成し、100個目のGCDのうち91個を正確に予測する。
- 参考スコア(独自算出の注目度): 0.8547032097715571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I investigate the capability of small transformers to compute the greatest
common divisor (GCD) of two positive integers. When the training distribution
and the representation base are carefully chosen, models achieve 98% accuracy
and correctly predict 91 of the 100 first GCD. Model predictions are
deterministic and fully interpretable. During training, the models learn to
cluster input pairs with the same GCD, and classify them by their divisors.
Basic models, trained from uniform operands encoded on small bases, only
compute a handful of GCD (up to 38 out of 100): the products of divisors of the
base. Longer training and larger bases allow some models to "grok" small prime
GCD. Training from log-uniform operands boosts performance to 73 correct GCD,
and balancing the training distribution of GCD, from inverse square to
log-uniform, to 91 GCD. Training models from a uniform distribution of GCD
breaks the deterministic model behavior.
- Abstract(参考訳): 2つの正の整数の最大共通因子(GCD)を計算するための小型変圧器の能力について検討する。
トレーニング分布と表現ベースを慎重に選択すると、98%の精度を達成し、100個の第1gcdのうち91を正しく予測する。
モデル予測は決定論的であり、完全に解釈可能である。
トレーニング中、モデルは同じGCDで入力ペアをクラスタリングし、ディバイザによって分類する。
基本モデルは、小さなベースで符号化された一様オペランドから訓練され、基礎のディバイザの積である1握りのgcd(最大で100中38個)のみを計算する。
より長いトレーニングとより大きなベースにより、いくつかのモデルは小さな素数 GCD を "グロク" することができる。
対数ユニフォームオペランドからのトレーニングは、パフォーマンスを73の正しいGCDに向上させ、逆2乗から対数ユニフォームまでのGCDのトレーニング分布を91のGCDにバランスさせる。
GCDの均一分布からのトレーニングモデルは決定論的モデル挙動を破る。
関連論文リスト
- Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。
余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-01-19T23:53:59Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Privacy-Preserving Distributed Machine Learning Made Faster [7.6549103368375215]
本稿では,正および負の整数に対する一連の演算を正確に実装する。
基本2進ブートストラップゲートをベースとして,実用的な$k$-bit補数演算子を構築した。
実験により、我々が設計したオペレータは実用的で効率的であることが示されている。
論文 参考訳(メタデータ) (2022-05-12T01:26:29Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - Learning Division with Neural Arithmetic Logic Modules [2.019622939313173]
2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。
我々はニューラル・リシパル・ユニット(NRU)とニューラル・マルチプリケーティブ・リシパル・ユニット(NMRU)と呼ばれる2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T11:56:57Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Learning elliptic partial differential equations with randomized linear
algebra [2.538209532048867]
ほぼ確実に収束する$G$への近似を構築することができることを示す。
0Gamma_epsilonleq 1$はトレーニングデータセットの品質を特徴付ける。
論文 参考訳(メタデータ) (2021-01-31T16:57:59Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。