論文の概要: Teaching Transformers Modular Arithmetic at Scale
- arxiv url: http://arxiv.org/abs/2410.03569v1
- Date: Fri, 4 Oct 2024 16:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-02 21:17:55.393827
- Title: Teaching Transformers Modular Arithmetic at Scale
- Title(参考訳): 変圧器の大規模化によるモジュラー算術の指導
- Authors: Eshika Saxena, Alberto Alfarano, Emily Wenger, Kristin Lauter,
- Abstract要約: この作業では、モジュール追加モデルトレーニングパイプラインに3つの変更を提案する。
N = 256, q = 3329$, 暗号アプリケーションには興味深いケースがある。
- 参考スコア(独自算出の注目度): 9.68892691572611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modular addition is, on its face, a simple operation: given $N$ elements in $\mathbb{Z}_q$, compute their sum modulo $q$. Yet, scalable machine learning solutions to this problem remain elusive: prior work trains ML models that sum $N \le 6$ elements mod $q \le 1000$. Promising applications of ML models for cryptanalysis-which often involve modular arithmetic with large $N$ and $q$-motivate reconsideration of this problem. This work proposes three changes to the modular addition model training pipeline: more diverse training data, an angular embedding, and a custom loss function. With these changes, we demonstrate success with our approach for $N = 256, q = 3329$, a case which is interesting for cryptographic applications, and a significant increase in $N$ and $q$ over prior work. These techniques also generalize to other modular arithmetic problems, motivating future work.
- Abstract(参考訳): モジュラー加算は単純な演算である:$\mathbb{Z}_q$ の$N$要素が与えられたとき、その和 modulo $q$ が計算される。
しかし、この問題に対するスケーラブルな機械学習ソリューションは、いまだ解明されていない: 事前作業は、N \le 6$ element mod $q \le 1000$を和算するMLモデルを訓練する。
暗号解析のためのMLモデルの応用を実証する - 多くの場合、大きな$N$と$q$のモチベーションを持つモジュラー演算を伴う。
この作業では、より多様なトレーニングデータ、角の埋め込み、カスタムロス関数という、モジュール追加モデルのトレーニングパイプラインに3つの変更を提案する。
これらの変更で、我々は、N = 256, q = 3329$のアプローチで成功し、暗号アプリケーションにとって興味深いケースであり、以前の作業でN = 256, $q$が大幅に増加したことを実証した。
これらの手法は他のモジュラー算術問題にも一般化し、将来の研究を動機付けている。
関連論文リスト
- LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations [5.275682987885503]
我々は,前世代のアクティベーションに関する線形プローブを訓練し,数学やコーディングタスクにおける政策固有の成功を予測する。
モデルが人間の難易度とは異なる難易度のモデル固有の概念を符号化していることを示す。
モデルプールをまたいでクエリをルーティングすることは、最高のパフォーマンスモデルを超えることができることを実証する。
論文 参考訳(メタデータ) (2026-02-10T15:57:00Z) - DéjàQ: Open-Ended Evolution of Diverse, Learnable and Verifiable Problems [19.381443841718596]
DéjQは、モデルトレーニングと並行して、多様な数学的問題の集合を進化させるフレームワークである。
この進化過程は訓練を通じてモデルの能力に適応し、学習可能性に関する問題を最適化する。
このモデルが新規で有意義な問題を生じさせ,これらのLSMによる突然変異がRLトレーニングを改善することが判明した。
論文 参考訳(メタデータ) (2026-01-05T09:27:49Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - Provably Overwhelming Transformer Models with Designed Inputs [0.0]
この文字列で評価されたモデルの出力と任意の追加文字列$t$, $mathcalM(s + t)$が、長さ($t$)$leq n_free$のたびに$t$の値に完全に無関心である場合、$mathcalM$は$s$で圧倒される。
我々は、モデルの振る舞いを束縛するために使う、特に強力な「オーバースカッシング」の最悪の形態を証明します。
論文 参考訳(メタデータ) (2025-02-09T21:21:57Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - RKLD: Reverse KL-Divergence-based Knowledge Distillation for Unlearning Personal Information in Large Language Models [23.91608718129775]
我々は,大規模言語モデル(LLM)のための新しいtextbfReverse textbfKL-Divergence-based Knowledge textbfDistillation unlearningアルゴリズムであるRKLDを提案する。
我々は,実験におけるモデルの有用性を効果的に維持し,品質を著しく忘れることを実現した。
論文 参考訳(メタデータ) (2024-06-04T05:51:43Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Salsa Fresca: Angular Embeddings and Pre-Training for ML Attacks on
Learning With Errors [10.800552110718714]
LWE(Learning with Errors)は、鍵交換とデジタル署名のための量子後暗号システムの基礎となる難解な数学問題である。
以前の作業では、小さな秘密を持つLWE問題に対する機械学習(ML)ベースの新たな攻撃を提案したが、これらの攻撃には、秘密をトレーニングし、回復するのに数日を要する数百万のLWEサンプルが必要である。
我々は、これらの攻撃を改善するために、3つの重要な方法、より良い前処理、角埋め込み、モデル事前訓練を提案する。
論文 参考訳(メタデータ) (2024-02-02T00:48:27Z) - In-Context Learning Creates Task Vectors [40.990432572831885]
In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。
ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。
私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
論文 参考訳(メタデータ) (2023-10-24T15:17:14Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文 参考訳(メタデータ) (2021-09-29T02:06:33Z) - Halving the width of Toffoli based constant modular addition to n+3
qubits [69.43216268165402]
本稿では,Toffoli ゲートの深さが $mathcalO(n)$ の固定モジュラ加算を行う演算回路を提案する。
これは、最先端のToffoliベースの定数モジュラー加算器の幅と比較して2倍の改善である。
論文 参考訳(メタデータ) (2021-02-06T17:07:48Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。