論文の概要: How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator
- arxiv url: http://arxiv.org/abs/2405.17209v1
- Date: Thu, 23 May 2024 01:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-28 15:03:23.934829
- Title: How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator
- Title(参考訳): 変圧器の物理 : 単純な高調波発振器の考察
- Authors: Subhash Kantamneni, Ziming Liu, Max Tegmark,
- Abstract要約: 物理学における最も基本的なシステムの一つである単純高調波発振器(SHO)について検討する。
我々は変換器がSHOをモデル化するために使用する手法を特定し、それらの手法の中間体の符号化を解析することにより、可能な手法を仮説化し評価する。
解析フレームワークは高次元線形系や非線形系に便利に拡張でき、変換器に隠された「世界モデル」を明らかにするのに役立ちたい。
- 参考スコア(独自算出の注目度): 15.01642959193149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do transformers model physics? Do transformers model systems with interpretable analytical solutions, or do they create "alien physics" that are difficult for humans to decipher? We take a step in demystifying this larger puzzle by investigating the simple harmonic oscillator (SHO), $\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$, one of the most fundamental systems in physics. Our goal is to identify the methods transformers use to model the SHO, and to do so we hypothesize and evaluate possible methods by analyzing the encoding of these methods' intermediates. We develop four criteria for the use of a method within the simple testbed of linear regression, where our method is $y = wx$ and our intermediate is $w$: (1) Can the intermediate be predicted from hidden states? (2) Is the intermediate's encoding quality correlated with model performance? (3) Can the majority of variance in hidden states be explained by the intermediate? (4) Can we intervene on hidden states to produce predictable outcomes? Armed with these two correlational (1,2), weak causal (3) and strong causal (4) criteria, we determine that transformers use known numerical methods to model trajectories of the simple harmonic oscillator, specifically the matrix exponential method. Our analysis framework can conveniently extend to high-dimensional linear systems and nonlinear systems, which we hope will help reveal the "world model" hidden in transformers.
- Abstract(参考訳): トランスフォーマーは物理をどうモデル化するか?
トランスフォーマーは、解釈可能な解析解を持つシステムをモデル化するのか、それとも人間にとって解読が難しい「アリエン物理学」を作るのか?
我々は、単純な調和振動子(SHO)、$\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$、物理学における最も基本的なシステムの一つである。
我々のゴールは、変換器がSHOをモデル化するために使用する手法を特定し、これらの手法の中間体の符号化を解析することにより、可能な手法を仮説化し、評価することである。
線形回帰の単純なテストベッドでメソッドを使用するための4つの基準を開発し、そこではメソッドは$y = wx$、中間は$w$: (1) 隠れ状態から予測できるのか?
2)中間の符号化品質はモデル性能と相関しているか?
(3)隠れ状態の分散の大部分は中間体で説明できるのか?
(4)隠れた状態に介入して予測可能な結果が得られるか?
これら2つの相関(1,2)、弱い因果関係((3))、強い因果関係((4))の基準により、変圧器は既知の数値法を用いて単純な調和振動子の軌道、特に行列指数法をモデル化する。
解析フレームワークは高次元線形系や非線形系に便利に拡張でき、変換器に隠された「世界モデル」を明らかにするのに役立ちたい。
関連論文リスト
- Automated Discovery of Conservation Laws via Hybrid Neural ODE-Transformers [0.0]
そこで本稿では,ノイズのある軌道データから保存量の発見を自動化するハイブリッドフレームワークを提案する。
提案手法は,(1)システムの力学の連続的なモデルを学習するニューラル正規微分方程式,(2)学習ベクトル場上で条件付けられた記号的候補不変量を生成する変換器,(3)これらの候補の有効性を示す強力な数値証明を提供する記号的数値検証器の3つの要素を統合する。
論文 参考訳(メタデータ) (2025-10-30T17:32:04Z) - When Do Transformers Learn Heuristics for Graph Connectivity? [33.73385470817422]
我々は、直径が$3Lのグラフに対して、$L$層モデルで解く能力があることを証明した。
トレーニングの力学を解析し、学習した戦略が、ほとんどのトレーニングインスタンスがこのモデルのキャパシティ内にあるかどうかにかかっていることを示す。
論文 参考訳(メタデータ) (2025-10-22T16:43:32Z) - FFT-Accelerated Auxiliary Variable MCMC for Fermionic Lattice Models: A Determinant-Free Approach with $O(N\log N)$ Complexity [52.3171766248012]
量子多体系のシミュレーションを劇的に高速化するマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを導入する。
我々は,量子物理学のベンチマーク問題に対するアルゴリズムの有効性を検証し,既知の理論結果を正確に再現する。
我々の研究は、大規模確率的推論のための強力なツールを提供し、物理学に着想を得た生成モデルのための道を開く。
論文 参考訳(メタデータ) (2025-10-13T07:57:21Z) - Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - MathBode: Understanding LLM Reasoning with Dynamical Systems [0.0]
大規模言語モデル(LLM)における数学的推論のための動的診断法であるMathBodeを提案する。
一つのパラメータを正弦波に駆動し、モデル出力と正確な解の第一高調波応答に適合する。
5つのクローズドフォームファミリにまたがって、診断面は系統的な低域通過挙動と位相ラグを呈し、精度のみを曖昧にしている。
論文 参考訳(メタデータ) (2025-09-27T06:06:36Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
我々の分析によれば、トランスフォーマーは無意味なmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Can Transformers In-Context Learn Behavior of a Linear Dynamical System? [13.331659934508764]
本研究では,関連するプロセスとそれに関連するパラメータがコンテキストとして与えられたとき,トランスフォーマーがランダムなプロセスを追跡することを学べるかどうかを検討する。
変圧器の頑健性に関するさらなる研究により、モデルパラメータが部分的に保持されていない場合でも、その性能が維持されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-21T22:18:10Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Can Transformers Do Enumerative Geometry? [44.99833362998488]
曲線のモジュライ空間上の$psi$クラス交叉数を解析するための計算列挙幾何学の新しいパラダイムを導入する。
量子エアリー構造に基づく$psi$クラス交叉数を計算するためのTransformerベースのモデルを開発した。
我々は単に交叉数を計算し、トランスフォーマーの列挙的な「世界モデル」を探求する。
論文 参考訳(メタデータ) (2024-08-27T09:44:01Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Attention with Markov: A Framework for Principled Analysis of Transformers via Markov Chains [45.84704083061562]
マルコフ連鎖を用いた変圧器の原理解析のための新しい枠組みを提案する。
データ特性とモデルアーキテクチャに基づくグローバルミニマ(ビグラム)と悪いローカルミニマ(ユニグラム)の存在を示す。
論文 参考訳(メタデータ) (2024-02-06T17:18:59Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - Pathologies in priors and inference for Bayesian transformers [71.97183475225215]
ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-08T10:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。