論文の概要: Physics in Next-token Prediction
- arxiv url: http://arxiv.org/abs/2411.00660v2
- Date: Sat, 16 Nov 2024 06:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:36.439311
- Title: Physics in Next-token Prediction
- Title(参考訳): 次世代予測における物理
- Authors: Hongjun An, Yiliang Song, Xuelong Li,
- Abstract要約: 我々はNext-token Prediction(NTP)における情報保存の法則を特定した。
我々は,自己回帰モデルにおけるインテリジェンスの発生の本質が情報伝達の過程であることを示す,情報容量第一法則(IC-1)を提案した。
我々はまた、自動回帰モデルトレーニングとエネルギー消費の関係を確立する第2情報容量法(IC-2)を定式化したランダウアーの原則をNTPに導入した。
- 参考スコア(独自算出の注目度): 46.953251684423165
- License:
- Abstract: We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we demonstrate the consistency between the Law of Information Capacity and the Scaling Law for Neural Language Models, the Knowledge Capacity Scaling Laws, and the Scaling Laws for Precision.
- Abstract(参考訳): 我々はNext-token Prediction (NTP)で基礎となる物理を発見した。
我々は,NTPにおける情報保存の法則を特定し,情報伝達のプロセスである自己回帰モデルにおける情報発生の本質を実証する第1次情報容量法則(IC-1)を提案した。
我々はまた、自動回帰モデルトレーニングとエネルギー消費の関係を確立する第2情報容量法(IC-2)を定式化したランダウアーの原則をNTPに導入した。
さらに,本研究では,生産実践において実践的な重要性を保ちながら,いくつかの資料をまとめて紹介した。
最後に、情報容量法則とニューラルネットワークモデルのスケーリング法則、知識容量スケーリング法則、精度のためのスケーリング法則の整合性を実証する。
関連論文リスト
- The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - The Information of Large Language Model Geometry [3.4003124816653143]
本研究では,表現エントロピーを解析し,モデルサイズとの関係を明らかにするシミュレーションを行う。
本稿では,スケーリング法則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
論文 参考訳(メタデータ) (2024-02-01T12:50:43Z) - Harnessing the Power of Neural Operators with Automatically Encoded Conservation Laws [14.210553163356131]
保存法で符号化されたニューラル演算子(ClawNOs)を紹介する。
ClawNOsは、物理的整合性に不可欠な最も基本的でユビキタスな保存法に準拠している。
それらは、特に小規模データ体制において、学習効率において最先端のNOを著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T13:21:49Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Knowledge is Power: Understanding Causality Makes Legal judgment
Prediction Models More Generalizable and Robust [3.555105847974074]
法的判断予測(LJP)は、限られた法律実務者の労働負担を軽減するために法的支援を行う。
既存の手法の多くは、LJPタスクで微調整された様々な大規模事前学習言語モデルを適用し、一貫した改善を得る。
最先端モデル(SOTA)は,無関係情報(あるいは非因果情報)に基づいて判断予測を行う。
論文 参考訳(メタデータ) (2022-11-06T07:03:31Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Parsimonious neural networks learn interpretable physical laws [77.34726150561087]
本稿では、ニューラルネットワークと進化的最適化を組み合わせたパシモニクスニューラルネットワーク(PNN)を提案し、精度とパシモニクスのバランスをとるモデルを求める。
アプローチのパワーと汎用性は、古典力学のモデルを開発し、基本特性から材料の融解温度を予測することによって実証される。
論文 参考訳(メタデータ) (2020-05-08T16:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。