論文の概要: Physics in Next-token Prediction
- arxiv url: http://arxiv.org/abs/2411.00660v2
- Date: Sat, 16 Nov 2024 06:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:36.439311
- Title: Physics in Next-token Prediction
- Title(参考訳): 次世代予測における物理
- Authors: Hongjun An, Yiliang Song, Xuelong Li,
- Abstract要約: 我々はNext-token Prediction(NTP)における情報保存の法則を特定した。
我々は,自己回帰モデルにおけるインテリジェンスの発生の本質が情報伝達の過程であることを示す,情報容量第一法則(IC-1)を提案した。
我々はまた、自動回帰モデルトレーニングとエネルギー消費の関係を確立する第2情報容量法(IC-2)を定式化したランダウアーの原則をNTPに導入した。
- 参考スコア(独自算出の注目度): 46.953251684423165
- License:
- Abstract: We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we demonstrate the consistency between the Law of Information Capacity and the Scaling Law for Neural Language Models, the Knowledge Capacity Scaling Laws, and the Scaling Laws for Precision.
- Abstract(参考訳): 我々はNext-token Prediction (NTP)で基礎となる物理を発見した。
我々は,NTPにおける情報保存の法則を特定し,情報伝達のプロセスである自己回帰モデルにおける情報発生の本質を実証する第1次情報容量法則(IC-1)を提案した。
我々はまた、自動回帰モデルトレーニングとエネルギー消費の関係を確立する第2情報容量法(IC-2)を定式化したランダウアーの原則をNTPに導入した。
さらに,本研究では,生産実践において実践的な重要性を保ちながら,いくつかの資料をまとめて紹介した。
最後に、情報容量法則とニューラルネットワークモデルのスケーリング法則、知識容量スケーリング法則、精度のためのスケーリング法則の整合性を実証する。
関連論文リスト
- Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - The Information of Large Language Model Geometry [3.4003124816653143]
本研究では,表現エントロピーを解析し,モデルサイズとの関係を明らかにするシミュレーションを行う。
本稿では,スケーリング法則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
論文 参考訳(メタデータ) (2024-02-01T12:50:43Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - TrafficFlowGAN: Physics-informed Flow based Generative Adversarial
Network for Uncertainty Quantification [4.215251065887861]
動的システムの不確実性定量化(UQ)のための物理インフォームドフローベース生成逆ネットワーク(GAN)であるTrafficFlowGANを提案する。
このフローモデルは、データ可能性の最大化と、畳み込み判別器を騙すことができる合成データを生成するために訓練される。
我々の知る限りでは、UQ問題に対するフロー、GAN、PIDLの統合を最初に提案します。
論文 参考訳(メタデータ) (2022-06-19T03:35:12Z) - Link Prediction on N-ary Relational Data Based on Relatedness Evaluation [61.61555159755858]
我々は,n-aryリレーショナルデータ上でリンク予測を行うNaLPという手法を提案する。
各 n 個の関係事実を、その役割と役割と値のペアの集合として表現する。
実験結果は,提案手法の有効性と有用性を検証した。
論文 参考訳(メタデータ) (2021-04-21T09:06:54Z) - PIGNet: A physics-informed deep learning model toward generalized
drug-target interaction predictions [0.0]
DTIモデルの一般化を促進するための2つの重要な戦略を提案する。
1つ目は、ニューラルネットワークでパラメータ化された物理インフォームド方程式を用いて原子-原子対相互作用を予測することである。
さらに,バインドポーズの幅を拡大し,より広いトレーニングデータに拡張することで,モデル一般化をさらに改善する。
論文 参考訳(メタデータ) (2020-08-22T14:29:58Z) - Parsimonious neural networks learn interpretable physical laws [77.34726150561087]
本稿では、ニューラルネットワークと進化的最適化を組み合わせたパシモニクスニューラルネットワーク(PNN)を提案し、精度とパシモニクスのバランスをとるモデルを求める。
アプローチのパワーと汎用性は、古典力学のモデルを開発し、基本特性から材料の融解温度を予測することによって実証される。
論文 参考訳(メタデータ) (2020-05-08T16:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。