Fugu-MT 論文翻訳(概要): Teaching Transformers Modular Arithmetic at Scale

論文の概要: Teaching Transformers Modular Arithmetic at Scale

arxiv url: http://arxiv.org/abs/2410.03569v1
Date: Fri, 4 Oct 2024 16:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 21:17:55.393827
Title: Teaching Transformers Modular Arithmetic at Scale
Title（参考訳）: 変圧器の大規模化によるモジュラー算術の指導
Authors: Eshika Saxena, Alberto Alfarano, Emily Wenger, Kristin Lauter,
Abstract要約: この作業では、モジュール追加モデルトレーニングパイプラインに3つの変更を提案する。 N = 256, q = 3329$, 暗号アプリケーションには興味深いケースがある。
参考スコア（独自算出の注目度）: 9.68892691572611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modular addition is, on its face, a simple operation: given $N$ elements in $\mathbb{Z}_q$, compute their sum modulo $q$. Yet, scalable machine learning solutions to this problem remain elusive: prior work trains ML models that sum $N \le 6$ elements mod $q \le 1000$. Promising applications of ML models for cryptanalysis-which often involve modular arithmetic with large $N$ and $q$-motivate reconsideration of this problem. This work proposes three changes to the modular addition model training pipeline: more diverse training data, an angular embedding, and a custom loss function. With these changes, we demonstrate success with our approach for $N = 256, q = 3329$, a case which is interesting for cryptographic applications, and a significant increase in $N$ and $q$ over prior work. These techniques also generalize to other modular arithmetic problems, motivating future work.
Abstract（参考訳）: モジュラー加算は単純な演算である:$\mathbb{Z}_q$ の$N$要素が与えられたとき、その和 modulo $q$ が計算される。しかし、この問題に対するスケーラブルな機械学習ソリューションは、いまだ解明されていない: 事前作業は、N \le 6$ element mod $q \le 1000$を和算するMLモデルを訓練する。暗号解析のためのMLモデルの応用を実証する - 多くの場合、大きな$N$と$q$のモチベーションを持つモジュラー演算を伴う。この作業では、より多様なトレーニングデータ、角の埋め込み、カスタムロス関数という、モジュール追加モデルのトレーニングパイプラインに3つの変更を提案する。これらの変更で、我々は、N = 256, q = 3329$のアプローチで成功し、暗号アプリケーションにとって興味深いケースであり、以前の作業でN = 256, $q$が大幅に増加したことを実証した。これらの手法は他のモジュラー算術問題にも一般化し、将来の研究を動機付けている。

関連論文リスト

Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文参考訳（メタデータ） (2025-04-07T03:08:12Z)
Provably Overwhelming Transformer Models with Designed Inputs [0.0]
この文字列で評価されたモデルの出力と任意の追加文字列$t$, $mathcalM(s + t)$が、長さ($t$)$leq n_free$のたびに$t$の値に完全に無関心である場合、$mathcalM$は$s$で圧倒される。我々は、モデルの振る舞いを束縛するために使う、特に強力な「オーバースカッシング」の最悪の形態を証明します。
論文参考訳（メタデータ） (2025-02-09T21:21:57Z)
Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文参考訳（メタデータ） (2024-09-25T22:08:31Z)
In-Context Learning Creates Task Vectors [40.990432572831885]
In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
論文参考訳（メタデータ） (2023-10-24T15:17:14Z)
Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文参考訳（メタデータ） (2023-06-27T11:53:25Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析正規化条件を使わずに関数を学習する一般化誤差を証明した。また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文参考訳（メタデータ） (2021-09-29T02:06:33Z)
Halving the width of Toffoli based constant modular addition to n+3 qubits [69.43216268165402]
本稿では,Toffoli ゲートの深さが $mathcalO(n)$ の固定モジュラ加算を行う演算回路を提案する。これは、最先端のToffoliベースの定数モジュラー加算器の幅と比較して2倍の改善である。
論文参考訳（メタデータ） (2021-02-06T17:07:48Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。