論文の概要: Phase Transitions in Large Language Models and the $O(N)$ Model
- arxiv url: http://arxiv.org/abs/2501.16241v1
- Date: Mon, 27 Jan 2025 17:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:06.757408
- Title: Phase Transitions in Large Language Models and the $O(N)$ Model
- Title(参考訳): 大言語モデルの相転移と$O(N)$モデル
- Authors: Youran Sun, Babak Haghighat,
- Abstract要約: 我々はTransformerアーキテクチャを$O(N)$モデルとして再構成し,大規模言語モデルにおける位相遷移について検討した。
本研究は,テキスト生成に使用される温度に対応する相転移を2つ明らかにした。
アプリケーションとして、$O(N)$モデルのエネルギーを用いて、LLMのパラメータがトレーニングデータを学ぶのに十分かどうかを評価することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) exhibit unprecedentedly rich scaling behaviors. In physics, scaling behavior is closely related to phase transitions, critical phenomena, and field theory. To investigate the phase transition phenomena in LLMs, we reformulated the Transformer architecture as an $O(N)$ model. Our study reveals two distinct phase transitions corresponding to the temperature used in text generation and the model's parameter size, respectively. The first phase transition enables us to estimate the internal dimension of the model, while the second phase transition is of \textit{higher-depth} and signals the emergence of new capabilities. As an application, the energy of the $O(N)$ model can be used to evaluate whether an LLM's parameters are sufficient to learn the training data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、前例のないほど豊かなスケーリングの振る舞いを示す。
物理学において、スケーリングの挙動は相転移、臨界現象、場の理論と密接に関係している。
LLMの相転移現象を調べるため,Transformerアーキテクチャを$O(N)$モデルとして再設計した。
本研究は,テキスト生成に使用する温度とモデルパラメータサイズに対応する相転移をそれぞれ2つ明らかにした。
第1相転移はモデルの内部次元を推定し、第2相転移は \textit{higher-depth} であり、新しい機能の出現を示唆する。
アプリケーションとして、$O(N)$モデルのエネルギーを用いて、LLMのパラメータがトレーニングデータを学ぶのに十分かどうかを評価することができる。
関連論文リスト
- Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-16T08:23:39Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Phase Transitions in the Output Distribution of Large Language Models [0.9374652839580183]
物理系において、温度などのパラメータの変化は、ある物質の状態から別の状態への急激な変化である相転移を誘導することができる。
相転移を識別するタスクは、人間の分析とシステムの事前理解を必要とし、どの低次元特性をモニターし分析するかを絞り込む。
近年,データから位相遷移を自動的に検出する統計手法が物理学界で提案されている。
統計的距離を用いて生成した出力の分布変化を定量化し、次点上の確率分布にアクセスして効率的に推定する。
論文 参考訳(メタデータ) (2024-05-27T12:04:36Z) - Cascade of phase transitions in the training of Energy-based models [9.945465034701288]
原型エネルギーベース生成モデルBernoulli-Bernoulli RBMの特徴符号化過程について検討した。
本研究は、その特異値分解によるモデルの重み行列の進化をトラックする。
我々はBernoulli-Bernoulli RBMを実データ集合上でトレーニングすることで理論的結果を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:25:56Z) - Dynamics Reflects Quantum Phase Transition of Rabi Model [0.0]
Rabiモデルの回転波近似の分解は、相転移と結合強度をもたらす。
物理量の力学はこのモデルに対してそのような相転移を反映できることを示す。
この研究は、開量子系に対する非平衡過程による相転移を探求するアイデアを提供する。
論文 参考訳(メタデータ) (2023-09-13T14:45:07Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Kosterlitz-Thouless phase and $Z_d$ topological quantum phase [0.0]
北エフのトーリック符号のdレベルバージョンに局所的可逆変換を適用することで、対応する量子モデルを求める。
我々のモデルでは、$d geq 5$の場合、KT様の量子位相が$Z_d$位相と自明な位相の間に出現するという意味で、拡張トポロジカル位相転移を同定する。
論文 参考訳(メタデータ) (2020-04-30T10:16:59Z) - Discrete truncated Wigner approach to dynamical phase transitions in
Ising models after a quantum quench [0.0]
量子クエンチ後の横フィールドイジングモデルの定常状態における動的相転移について検討する。
我々は$alpha lesssim 0.5$の同じ指数を見つけ、この状態の動的遷移が非エルゴード平均場極限と同じ普遍性クラスに該当することを示唆する。
論文 参考訳(メタデータ) (2020-04-21T08:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。