Fugu-MT 論文翻訳(概要): Making Hard Problems Easier with Custom Data Distributions and Loss Regularization: A Case Study in Modular Arithmetic

論文の概要: Making Hard Problems Easier with Custom Data Distributions and Loss Regularization: A Case Study in Modular Arithmetic

arxiv url: http://arxiv.org/abs/2410.03569v2
Date: Mon, 25 Aug 2025 16:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 18:43:45.033895
Title: Making Hard Problems Easier with Custom Data Distributions and Loss Regularization: A Case Study in Modular Arithmetic
Title（参考訳）: カスタムデータ配布の困難化と正規化の損失化--モジュラー算術を事例として
Authors: Eshika Saxena, Alberto Alfarano, François Charton, Zeyuan Allen-Zhu, Emily Wenger, Kristin Lauter,
Abstract要約: モジュール演算タスクにおけるMLモデルの性能を大幅に向上させる技術を開発した。私たちの中心となるイノベーションは、カスタムトレーニングデータディストリビューションの使用と、慎重に設計された損失関数です。我々の技術は、コピー、連想的リコール、パリティなど、MLモデルが他のよく研究された問題をよりよく学習するのに役立つ。
参考スコア（独自算出の注目度）: 30.93087957720688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work showed that ML-based attacks on Learning with Errors (LWE), a hard problem used in post-quantum cryptography, outperform classical algebraic attacks in certain settings. Although promising, ML attacks struggle to scale to more complex LWE settings. Prior work connected this issue to the difficulty of training ML models to do modular arithmetic, a core feature of the LWE problem. To address this, we develop techniques that significantly boost the performance of ML models on modular arithmetic tasks, enabling the models to sum up to $N=128$ elements modulo $q \le 974269$. Our core innovation is the use of custom training data distributions and a carefully designed loss function that better represents the problem structure. We apply an initial proof of concept of our techniques to LWE specifically and find that they allow recovery of 2x harder secrets than prior work. Our techniques also help ML models learn other well-studied problems better, including copy, associative recall, and parity, motivating further study.
Abstract（参考訳）: 近年の研究では、量子後暗号で使用される問題であるLWE(Learning with Errors)に対するMLベースの攻撃が、特定の環境での古典的代数的攻撃よりも優れていることが示された。有望ではあるが、ML攻撃はより複雑なLWE設定にスケールするのに苦労する。それまでの作業は、LWE問題の中核的な特徴であるモジュラー演算を行うためのMLモデルを訓練することの難しさに、この問題を結び付けていた。そこで我々は,モジュール演算タスクにおけるMLモデルの性能を大幅に向上させる手法を開発し,最大で128$の要素を modulo $q \le 974269$ にまとめる。私たちの中心となるイノベーションは、カスタムトレーニングデータディストリビューションの使用と、問題構造をよりよく表現する、慎重に設計された損失関数です。提案手法をLWEに適用し, 従来よりも2倍硬いシークレットの回収が可能であることを確認した。我々の技術は、コピー、連想的リコール、パリティなど、MLモデルが他のよく研究された問題をよりよく学習するのに役立つ。

関連論文リスト

Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文参考訳（メタデータ） (2025-04-07T03:08:12Z)
Provably Overwhelming Transformer Models with Designed Inputs [0.0]
この文字列で評価されたモデルの出力と任意の追加文字列$t$, $mathcalM(s + t)$が、長さ($t$)$leq n_free$のたびに$t$の値に完全に無関心である場合、$mathcalM$は$s$で圧倒される。我々は、モデルの振る舞いを束縛するために使う、特に強力な「オーバースカッシング」の最悪の形態を証明します。
論文参考訳（メタデータ） (2025-02-09T21:21:57Z)
Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文参考訳（メタデータ） (2024-09-25T22:08:31Z)
In-Context Learning Creates Task Vectors [40.990432572831885]
In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
論文参考訳（メタデータ） (2023-10-24T15:17:14Z)
Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文参考訳（メタデータ） (2023-06-27T11:53:25Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析正規化条件を使わずに関数を学習する一般化誤差を証明した。また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文参考訳（メタデータ） (2021-09-29T02:06:33Z)
Halving the width of Toffoli based constant modular addition to n+3 qubits [69.43216268165402]
本稿では,Toffoli ゲートの深さが $mathcalO(n)$ の固定モジュラ加算を行う演算回路を提案する。これは、最先端のToffoliベースの定数モジュラー加算器の幅と比較して2倍の改善である。
論文参考訳（メタデータ） (2021-02-06T17:07:48Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。