Fugu-MT 論文翻訳(概要): Learning the greatest common divisor: explaining transformer predictions

論文の概要: Learning the greatest common divisor: explaining transformer predictions

arxiv url: http://arxiv.org/abs/2308.15594v2
Date: Thu, 14 Mar 2024 20:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 07:12:46.262982
Title: Learning the greatest common divisor: explaining transformer predictions
Title（参考訳）: 最も一般的な因子を学習する:変圧器の予測を説明する
Authors: François Charton,
Abstract要約: 小型変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。このモデルは整数と小さな素数を表すために使用される基底の因子の積である整数の$mathcal D$を学習し、両方の入力を分割する$mathcal D$の最大の要素を予測する。
参考スコア（独自算出の注目度）: 8.430481660019451
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The predictions of small transformers, trained to calculate the greatest common divisor (GCD) of two positive integers, can be fully characterized by looking at model inputs and outputs. As training proceeds, the model learns a list $\mathcal D$ of integers, products of divisors of the base used to represent integers and small primes, and predicts the largest element of $\mathcal D$ that divides both inputs. Training distributions impact performance. Models trained from uniform operands only learn a handful of GCD (up to $38$ GCD $\leq100$). Log-uniform operands boost performance to $73$ GCD $\leq 100$, and a log-uniform distribution of outcomes (i.e. GCD) to $91$. However, training from uniform (balanced) GCD breaks explainability.
Abstract（参考訳）: 2つの正の整数の最大共通因子(GCD)を計算するために訓練された小さな変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。トレーニングが進むと、モデルは整数の$\mathcal D$、整数と小さな素数を表すために使用される基底の因子の積を学習し、両方の入力を分割する$\mathcal D$の最大の要素を予測する。トレーニングディストリビューションはパフォーマンスに影響を与えます。均一なオペランドから訓練されたモデルは、ほんのわずかのGCD(最大38ドルGCD$\leq100$)しか学ばない。対数ユニフォームオペランドはパフォーマンスを7,3$ GCD $\leq 100$、対数ユニフォーム分布(すなわちGCD)を9,11ドルに向上させる。しかし、均一(バランスの取れた)GCDからのトレーニングは説明責任を損なう。

関連論文リスト

A Fast Multiplication Algorithm and RLWE-PLWE Equivalence for the Maximal Real Subfield of the $2^r p^s$-th Cyclotomic Field [0.0]
導体$n = 2r ps$ でシクロトミック場の最大実部分体に対する RLWE-PLWE 同値性を証明する。また、これらの実部分体の整数環における高速乗法アルゴリズムについても述べる。
論文参考訳（メタデータ） (2025-04-07T15:01:48Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文参考訳（メタデータ） (2024-09-25T22:08:31Z)
Models That Prove Their Own Correctness [2.6570606951261015]
我々は,その出力の正しさを証明する自己証明モデルを,対話的証明を通じて検証アルゴリズムとして$V$で訓練する。ランダムな入力に対して高い確率で、モデルは正しい出力 *and* を生成し、その正しさを$V!$に証明する。学習方法は,GCDを演算する自己証明変換器を訓練するために用いられ,その解答の正しさが証明される。
論文参考訳（メタデータ） (2024-05-24T17:10:08Z)
Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文参考訳（メタデータ） (2024-01-19T23:53:59Z)
A Unified Framework for Uniform Signal Recovery in Nonlinear Generative Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文参考訳（メタデータ） (2023-09-25T17:54:19Z)
Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文参考訳（メタデータ） (2023-06-27T11:53:25Z)
Learning Division with Neural Arithmetic Logic Modules [2.019622939313173]
2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。我々はニューラル・リシパル・ユニット(NRU)とニューラル・マルチプリケーティブ・リシパル・ユニット(NMRU)と呼ばれる2つの新しい手法を提案する。
論文参考訳（メタデータ） (2021-10-11T11:56:57Z)
Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-09-01T14:10:38Z)
Learning elliptic partial differential equations with randomized linear algebra [2.538209532048867]
ほぼ確実に収束する$G$への近似を構築することができることを示す。 0Gamma_epsilonleq 1$はトレーニングデータセットの品質を特徴付ける。
論文参考訳（メタデータ） (2021-01-31T16:57:59Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。