Fugu-MT 論文翻訳(概要): What is my math transformer doing? -- Three results on interpretability and generalization

論文の概要: What is my math transformer doing? -- Three results on interpretability and generalization

arxiv url: http://arxiv.org/abs/2211.00170v1
Date: Mon, 31 Oct 2022 22:31:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 13:06:35.816947
Title: What is my math transformer doing? -- Three results on interpretability and generalization
Title（参考訳）: 数学の変圧器は? --解釈可能性と一般化の3つの結果
Authors: Fran\c{c}ois Charton
Abstract要約: 間違ったモデル予測が解の深い数学的性質を保っていることを示す。また、トレーニングデータセットの慎重な選択がトレーニングを加速し、トレーニング分布からモデルを一般化できることも示します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the failure cases and out-of-distribution behavior of transformers trained on matrix inversion and eigenvalue decomposition. I show that incorrect model predictions still retain deep mathematical properties of the solution (e.g. correct eigenvalues, unit norm of eigenvectors), and that almost all model failures can be attributed to, and predicted from, properties of the problem or solution. This demonstrates that, when in doubt, math transformers do not hallucinate absurd solutions (as was sometimes proposed) but remain ``roughly right''. I also show that the careful choice of a training dataset can accelerate training, while allowing the model to generalize out of its training distribution, invalidating the idea that transformers ``merely interpolate'' from memorized examples.
Abstract（参考訳）: 本稿では,行列逆転と固有値分解に基づく変圧器の故障事例と分布外挙動について検討する。間違ったモデル予測は、解の深い数学的性質(例えば、正しい固有値、固有ベクトルの単位ノルム)を保持しており、ほとんどすべてのモデル失敗は問題や解の性質に起因し、予測可能であることを示す。これは、疑わしい場合、数学のトランスフォーマーは(しばしば提案されたように)不条理な解を暗示しないが、'roughly right'のままであることを示している。また、トレーニングデータセットの慎重な選択はトレーニングを加速し、モデルをトレーニング分布から一般化させ、暗記された例から「単なる補間」という考え方を無効化できることも示します。

関連論文リスト

Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文参考訳（メタデータ） (2025-05-27T21:36:50Z)
On Vanishing Variance in Transformer Length Generalization [23.706900145711913]
また,今日のフロンティアモデルにおいても,より長いシーケンス長はマルチヘッドアテンションモジュールの出力のばらつきを減少させることを示した。分析では, この改善は分散の消失による分布シフトを完全に排除したものではないものの, 削減したと考えられる。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
Symmetry and Generalisation in Machine Learning [0.0]
等変でない任意の予測器に対して、全ての回帰問題に対するテストリスクが厳格に低い同変予測器が存在することを示す。我々は別の視点を採用し、不変モデルによる学習が軌道代表者の問題に還元されるという共通の直観を定式化する。
論文参考訳（メタデータ） (2025-01-07T15:14:58Z)
Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文参考訳（メタデータ） (2024-10-22T05:11:45Z)
Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文参考訳（メタデータ） (2024-10-07T23:53:25Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文参考訳（メタデータ） (2024-01-09T01:19:03Z)
Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文参考訳（メタデータ） (2023-11-14T18:09:15Z)
Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文参考訳（メタデータ） (2023-06-16T15:50:03Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文参考訳（メタデータ） (2022-10-06T15:20:55Z)
Linear algebra with transformers [0.0]
数値計算を高精度に行うために,変圧器を訓練できることを示す。線形代数の問題を考察する:行列変換、加算、乗法、固有値とベクトル、特異値分解、反転。
論文参考訳（メタデータ） (2021-12-03T13:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。