論文の概要: A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe
Processes
- arxiv url: http://arxiv.org/abs/2302.09049v1
- Date: Fri, 17 Feb 2023 18:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 13:48:47.281616
- Title: A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe
Processes
- Title(参考訳): 神経スケーリング則の単純化モデル:多周期サンタフェ過程
- Authors: {\L}ukasz D\k{e}bowski
- Abstract要約: 大規模言語モデルでは,パラメータ数やトレーニングトークン数に関して,クロスエントロピーの非合法な崩壊を示すことが観察された。
文字通り外挿すると、この崩壊は自然言語のエントロピー速度がゼロであることを意味する。
簡単な定常過程と,そのメモリベース予測器を構築し,クロスエントロピーのパワーロッド崩壊と消滅するエントロピー速度を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It was observed that large language models exhibit a power-law decay of cross
entropy with respect to the number of parameters and training tokens. When
extrapolated literally, this decay implies that the entropy rate of natural
language is zero. To understand this phenomenon -- or an artifact -- better, we
construct a simple stationary stochastic process and its memory-based predictor
that exhibit a power-law decay of cross entropy with the vanishing entropy
rate. Our example is based on previously discussed Santa Fe processes, which
decompose a random text into a process of narration and time-independent
knowledge. Previous discussions assumed that narration is a memoryless source
with Zipf's distribution. In this paper, we propose a model of narration that
has the vanishing entropy rate and applies a randomly chosen deterministic
sequence called a multiperiodic sequence. Under a suitable parameterization,
multiperiodic sequences exhibit asymptotic relative frequencies given by Zipf's
law. Remaining agnostic about the value of the entropy rate of natural
language, we discuss relevance of similar constructions for language modeling.
- Abstract(参考訳): 大規模言語モデルでは,パラメータ数や訓練トークン数に対して,クロスエントロピーのパワーロー崩壊を示すことが観察された。
文字通り外挿すると、この崩壊は自然言語のエントロピー率がゼロであることを意味する。
この現象(あるいは人工物)をよりよく理解するために、単純な定常確率過程と、消失するエントロピー率でクロスエントロピーのパワーロー減衰を示すメモリベースの予測器を構築した。
この例は以前に議論されたサンタフェのプロセスに基づいており、ランダムテキストをナレーションと時間に依存しない知識のプロセスに分解する。
以前の議論では、ナレーションはZipfの分布を持つメモリレスソースであると考えられていた。
本稿では,消失するエントロピー率を持つナレーションのモデルを提案し,多周期列と呼ばれるランダムに選択された決定論的列を適用する。
適切なパラメータ化の下では、多周期列はZipfの法則によって与えられる漸近相対周波数を示す。
自然言語のエントロピー率の価値について無知でありながら、言語モデリングにおける類似の構造の関連性について論じる。
関連論文リスト
- Causal Layering via Conditional Entropy [85.01590667411956]
因果発見は、生成した観測可能なデータから観測されていない因果グラフに関する情報を回収することを目的としている。
我々は、条件付きエントロピーオラクルを介してデータにアクセスすることによって、グラフの階層化を回復する方法を提供する。
論文 参考訳(メタデータ) (2024-01-19T05:18:28Z) - Observational entropic study of Anderson localization [0.0]
一次元Aubrey-Andr'eモデルにおける局所化・非局在化遷移の文脈における観測エントロピーの挙動について検討する。
粗粒化では、非局在化相のシステムサイズと対数的に増加し、局所化相の領域法則に従う。
また、観測エントロピーの増加に続き、量子クエンチは非局在化相および遷移点における対数であり、局所化相では発振する。
論文 参考訳(メタデータ) (2022-09-21T11:26:43Z) - On the Convergence of the ELBO to Entropy Sums [3.345575993695074]
変分下界は、すべての定常的な学習点においてエントロピーの和に等しいことを示す。
非常に大きな生成モデルのクラスでは、変分下界は全ての定常的な学習点である。
論文 参考訳(メタデータ) (2022-09-07T11:33:32Z) - R\'{e}nyi entanglement entropy after a quantum quench starting from
insulating states in a free boson system [0.0]
量子クエンチ後の時間依存性R'enyiエンタングルメントエントロピーについて検討する。
我々は前例のない大規模なシステムにおけるR'enyiエンタングルメントエントロピーの時間発展を計算する。
我々は,非相互作用ボソニック系のリアルタイム力学への本研究の応用の可能性について論じる。
論文 参考訳(メタデータ) (2022-07-18T02:36:14Z) - Entropy Production and the Role of Correlations in Quantum Brownian
Motion [77.34726150561087]
量子ブラウン運動のカルデイラ・レゲットモデルにおいて、量子エントロピーの生成、異なる種類の相関、およびそれらの相互作用について研究する。
論文 参考訳(メタデータ) (2021-08-05T13:11:05Z) - Aspects of Pseudo Entropy in Field Theories [0.0]
自由スカラー場の理論とXYスピンモデルを数値的に解析する。
これは多体系における擬エントロピーの基本的性質を明らかにする。
差の非正則性は、初期状態と最終状態が異なる量子相に属する場合にのみ破ることができる。
論文 参考訳(メタデータ) (2021-06-06T13:25:35Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Shannon Entropy Rate of Hidden Markov Processes [77.34726150561087]
隠れマルコフ連鎖のエントロピー率を計算する方法を示す。
また,この手法が最小限の無限予測的特徴を与えることを示す。
続編は、構造に関するチャレンジの第2部に対処します。
論文 参考訳(メタデータ) (2020-08-29T00:48:17Z) - Relevant OTOC operators: footprints of the classical dynamics [68.8204255655161]
OTOC-RE定理(OTOC-RE theorem)は、作用素の完備な基底にまとめられたOTOCを第二レニイエントロピー(Renyi entropy)に関連付ける定理である。
関係作用素の小さな集合に対する和は、エントロピーの非常によい近似を得るのに十分であることを示す。
逆に、これは複雑性の別の自然な指標、すなわち時間と関連する演算子の数のスケーリングを提供する。
論文 参考訳(メタデータ) (2020-07-31T19:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。