論文の概要: How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator
- arxiv url: http://arxiv.org/abs/2405.17209v1
- Date: Thu, 23 May 2024 01:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:03:23.934829
- Title: How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator
- Title(参考訳): 変圧器の物理 : 単純な高調波発振器の考察
- Authors: Subhash Kantamneni, Ziming Liu, Max Tegmark,
- Abstract要約: 物理学における最も基本的なシステムの一つである単純高調波発振器(SHO)について検討する。
我々は変換器がSHOをモデル化するために使用する手法を特定し、それらの手法の中間体の符号化を解析することにより、可能な手法を仮説化し評価する。
解析フレームワークは高次元線形系や非線形系に便利に拡張でき、変換器に隠された「世界モデル」を明らかにするのに役立ちたい。
- 参考スコア(独自算出の注目度): 15.01642959193149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do transformers model physics? Do transformers model systems with interpretable analytical solutions, or do they create "alien physics" that are difficult for humans to decipher? We take a step in demystifying this larger puzzle by investigating the simple harmonic oscillator (SHO), $\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$, one of the most fundamental systems in physics. Our goal is to identify the methods transformers use to model the SHO, and to do so we hypothesize and evaluate possible methods by analyzing the encoding of these methods' intermediates. We develop four criteria for the use of a method within the simple testbed of linear regression, where our method is $y = wx$ and our intermediate is $w$: (1) Can the intermediate be predicted from hidden states? (2) Is the intermediate's encoding quality correlated with model performance? (3) Can the majority of variance in hidden states be explained by the intermediate? (4) Can we intervene on hidden states to produce predictable outcomes? Armed with these two correlational (1,2), weak causal (3) and strong causal (4) criteria, we determine that transformers use known numerical methods to model trajectories of the simple harmonic oscillator, specifically the matrix exponential method. Our analysis framework can conveniently extend to high-dimensional linear systems and nonlinear systems, which we hope will help reveal the "world model" hidden in transformers.
- Abstract(参考訳): トランスフォーマーは物理をどうモデル化するか?
トランスフォーマーは、解釈可能な解析解を持つシステムをモデル化するのか、それとも人間にとって解読が難しい「アリエン物理学」を作るのか?
我々は、単純な調和振動子(SHO)、$\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$、物理学における最も基本的なシステムの一つである。
我々のゴールは、変換器がSHOをモデル化するために使用する手法を特定し、これらの手法の中間体の符号化を解析することにより、可能な手法を仮説化し、評価することである。
線形回帰の単純なテストベッドでメソッドを使用するための4つの基準を開発し、そこではメソッドは$y = wx$、中間は$w$: (1) 隠れ状態から予測できるのか?
2)中間の符号化品質はモデル性能と相関しているか?
(3)隠れ状態の分散の大部分は中間体で説明できるのか?
(4)隠れた状態に介入して予測可能な結果が得られるか?
これら2つの相関(1,2)、弱い因果関係((3))、強い因果関係((4))の基準により、変圧器は既知の数値法を用いて単純な調和振動子の軌道、特に行列指数法をモデル化する。
解析フレームワークは高次元線形系や非線形系に便利に拡張でき、変換器に隠された「世界モデル」を明らかにするのに役立ちたい。
関連論文リスト
- Can Transformers In-Context Learn Behavior of a Linear Dynamical System? [13.331659934508764]
本研究では,関連するプロセスとそれに関連するパラメータがコンテキストとして与えられたとき,トランスフォーマーがランダムなプロセスを追跡することを学べるかどうかを検討する。
変圧器の頑健性に関するさらなる研究により、モデルパラメータが部分的に保持されていない場合でも、その性能が維持されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-21T22:18:10Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Can Transformers Do Enumerative Geometry? [44.99833362998488]
曲線のモジュライ空間上の$psi$クラス交叉数を解析するための計算列挙幾何学の新しいパラダイムを導入する。
量子エアリー構造に基づく$psi$クラス交叉数を計算するためのTransformerベースのモデルを開発した。
我々は単に交叉数を計算し、トランスフォーマーの列挙的な「世界モデル」を探求する。
論文 参考訳(メタデータ) (2024-08-27T09:44:01Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - Pathologies in priors and inference for Bayesian transformers [71.97183475225215]
ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-08T10:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。