論文の概要: What is my math transformer doing? -- Three results on interpretability
and generalization
- arxiv url: http://arxiv.org/abs/2211.00170v1
- Date: Mon, 31 Oct 2022 22:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:06:35.816947
- Title: What is my math transformer doing? -- Three results on interpretability
and generalization
- Title(参考訳): 数学の変圧器は?
--解釈可能性と一般化の3つの結果
- Authors: Fran\c{c}ois Charton
- Abstract要約: 間違ったモデル予測が解の深い数学的性質を保っていることを示す。
また、トレーニングデータセットの慎重な選択がトレーニングを加速し、トレーニング分布からモデルを一般化できることも示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the failure cases and out-of-distribution behavior of
transformers trained on matrix inversion and eigenvalue decomposition. I show
that incorrect model predictions still retain deep mathematical properties of
the solution (e.g. correct eigenvalues, unit norm of eigenvectors), and that
almost all model failures can be attributed to, and predicted from, properties
of the problem or solution. This demonstrates that, when in doubt, math
transformers do not hallucinate absurd solutions (as was sometimes proposed)
but remain ``roughly right''. I also show that the careful choice of a training
dataset can accelerate training, while allowing the model to generalize out of
its training distribution, invalidating the idea that transformers ``merely
interpolate'' from memorized examples.
- Abstract(参考訳): 本稿では,行列逆転と固有値分解に基づく変圧器の故障事例と分布外挙動について検討する。
間違ったモデル予測は、解の深い数学的性質(例えば、正しい固有値、固有ベクトルの単位ノルム)を保持しており、ほとんどすべてのモデル失敗は問題や解の性質に起因し、予測可能であることを示す。
これは、疑わしい場合、数学のトランスフォーマーは(しばしば提案されたように)不条理な解を暗示しないが、'roughly right'のままであることを示している。
また、トレーニングデータセットの慎重な選択はトレーニングを加速し、モデルをトレーニング分布から一般化させ、暗記された例から「単なる補間」という考え方を無効化できることも示します。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - Linear algebra with transformers [0.0]
数値計算を高精度に行うために,変圧器を訓練できることを示す。
線形代数の問題を考察する:行列変換、加算、乗法、固有値とベクトル、特異値分解、反転。
論文 参考訳(メタデータ) (2021-12-03T13:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。