論文の概要: Learning the greatest common divisor: explaining transformer predictions
- arxiv url: http://arxiv.org/abs/2308.15594v2
- Date: Thu, 14 Mar 2024 20:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:12:46.262982
- Title: Learning the greatest common divisor: explaining transformer predictions
- Title(参考訳): 最も一般的な因子を学習する:変圧器の予測を説明する
- Authors: François Charton,
- Abstract要約: 小型変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。
このモデルは整数と小さな素数を表すために使用される基底の因子の積である整数の$mathcal D$を学習し、両方の入力を分割する$mathcal D$の最大の要素を予測する。
- 参考スコア(独自算出の注目度): 8.430481660019451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The predictions of small transformers, trained to calculate the greatest common divisor (GCD) of two positive integers, can be fully characterized by looking at model inputs and outputs. As training proceeds, the model learns a list $\mathcal D$ of integers, products of divisors of the base used to represent integers and small primes, and predicts the largest element of $\mathcal D$ that divides both inputs. Training distributions impact performance. Models trained from uniform operands only learn a handful of GCD (up to $38$ GCD $\leq100$). Log-uniform operands boost performance to $73$ GCD $\leq 100$, and a log-uniform distribution of outcomes (i.e. GCD) to $91$. However, training from uniform (balanced) GCD breaks explainability.
- Abstract(参考訳): 2つの正の整数の最大共通因子(GCD)を計算するために訓練された小さな変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。
トレーニングが進むと、モデルは整数の$\mathcal D$、整数と小さな素数を表すために使用される基底の因子の積を学習し、両方の入力を分割する$\mathcal D$の最大の要素を予測する。
トレーニングディストリビューションはパフォーマンスに影響を与えます。
均一なオペランドから訓練されたモデルは、ほんのわずかのGCD(最大38ドルGCD$\leq100$)しか学ばない。
対数ユニフォームオペランドはパフォーマンスを7,3$ GCD $\leq 100$、対数ユニフォーム分布(すなわちGCD)を9,11ドルに向上させる。
しかし、均一(バランスの取れた)GCDからのトレーニングは説明責任を損なう。
関連論文リスト
- Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。
余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-01-19T23:53:59Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Privacy-Preserving Distributed Machine Learning Made Faster [7.6549103368375215]
本稿では,正および負の整数に対する一連の演算を正確に実装する。
基本2進ブートストラップゲートをベースとして,実用的な$k$-bit補数演算子を構築した。
実験により、我々が設計したオペレータは実用的で効率的であることが示されている。
論文 参考訳(メタデータ) (2022-05-12T01:26:29Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - Learning Division with Neural Arithmetic Logic Modules [2.019622939313173]
2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。
我々はニューラル・リシパル・ユニット(NRU)とニューラル・マルチプリケーティブ・リシパル・ユニット(NMRU)と呼ばれる2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T11:56:57Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Learning elliptic partial differential equations with randomized linear
algebra [2.538209532048867]
ほぼ確実に収束する$G$への近似を構築することができることを示す。
0Gamma_epsilonleq 1$はトレーニングデータセットの品質を特徴付ける。
論文 参考訳(メタデータ) (2021-01-31T16:57:59Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。