論文の概要: What is my math transformer doing? -- Three results on interpretability
and generalization
- arxiv url: http://arxiv.org/abs/2211.00170v1
- Date: Mon, 31 Oct 2022 22:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:06:35.816947
- Title: What is my math transformer doing? -- Three results on interpretability
and generalization
- Title(参考訳): 数学の変圧器は?
--解釈可能性と一般化の3つの結果
- Authors: Fran\c{c}ois Charton
- Abstract要約: 間違ったモデル予測が解の深い数学的性質を保っていることを示す。
また、トレーニングデータセットの慎重な選択がトレーニングを加速し、トレーニング分布からモデルを一般化できることも示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the failure cases and out-of-distribution behavior of
transformers trained on matrix inversion and eigenvalue decomposition. I show
that incorrect model predictions still retain deep mathematical properties of
the solution (e.g. correct eigenvalues, unit norm of eigenvectors), and that
almost all model failures can be attributed to, and predicted from, properties
of the problem or solution. This demonstrates that, when in doubt, math
transformers do not hallucinate absurd solutions (as was sometimes proposed)
but remain ``roughly right''. I also show that the careful choice of a training
dataset can accelerate training, while allowing the model to generalize out of
its training distribution, invalidating the idea that transformers ``merely
interpolate'' from memorized examples.
- Abstract(参考訳): 本稿では,行列逆転と固有値分解に基づく変圧器の故障事例と分布外挙動について検討する。
間違ったモデル予測は、解の深い数学的性質(例えば、正しい固有値、固有ベクトルの単位ノルム)を保持しており、ほとんどすべてのモデル失敗は問題や解の性質に起因し、予測可能であることを示す。
これは、疑わしい場合、数学のトランスフォーマーは(しばしば提案されたように)不条理な解を暗示しないが、'roughly right'のままであることを示している。
また、トレーニングデータセットの慎重な選択はトレーニングを加速し、モデルをトレーニング分布から一般化させ、暗記された例から「単なる補間」という考え方を無効化できることも示します。
関連論文リスト
- How do Transformers perform In-Context Autoregressive Learning? [65.92202218348696]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - The Lie Derivative for Measuring Learned Equivariance [49.39804522506397]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Linear algebra with transformers [0.0]
数値計算を高精度に行うために,変圧器を訓練できることを示す。
線形代数の問題を考察する:行列変換、加算、乗法、固有値とベクトル、特異値分解、反転。
論文 参考訳(メタデータ) (2021-12-03T13:21:57Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。