論文の概要: A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe
Processes
- arxiv url: http://arxiv.org/abs/2302.09049v1
- Date: Fri, 17 Feb 2023 18:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 13:48:47.281616
- Title: A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe
Processes
- Title(参考訳): 神経スケーリング則の単純化モデル:多周期サンタフェ過程
- Authors: {\L}ukasz D\k{e}bowski
- Abstract要約: 大規模言語モデルでは,パラメータ数やトレーニングトークン数に関して,クロスエントロピーの非合法な崩壊を示すことが観察された。
文字通り外挿すると、この崩壊は自然言語のエントロピー速度がゼロであることを意味する。
簡単な定常過程と,そのメモリベース予測器を構築し,クロスエントロピーのパワーロッド崩壊と消滅するエントロピー速度を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It was observed that large language models exhibit a power-law decay of cross
entropy with respect to the number of parameters and training tokens. When
extrapolated literally, this decay implies that the entropy rate of natural
language is zero. To understand this phenomenon -- or an artifact -- better, we
construct a simple stationary stochastic process and its memory-based predictor
that exhibit a power-law decay of cross entropy with the vanishing entropy
rate. Our example is based on previously discussed Santa Fe processes, which
decompose a random text into a process of narration and time-independent
knowledge. Previous discussions assumed that narration is a memoryless source
with Zipf's distribution. In this paper, we propose a model of narration that
has the vanishing entropy rate and applies a randomly chosen deterministic
sequence called a multiperiodic sequence. Under a suitable parameterization,
multiperiodic sequences exhibit asymptotic relative frequencies given by Zipf's
law. Remaining agnostic about the value of the entropy rate of natural
language, we discuss relevance of similar constructions for language modeling.
- Abstract(参考訳): 大規模言語モデルでは,パラメータ数や訓練トークン数に対して,クロスエントロピーのパワーロー崩壊を示すことが観察された。
文字通り外挿すると、この崩壊は自然言語のエントロピー率がゼロであることを意味する。
この現象(あるいは人工物)をよりよく理解するために、単純な定常確率過程と、消失するエントロピー率でクロスエントロピーのパワーロー減衰を示すメモリベースの予測器を構築した。
この例は以前に議論されたサンタフェのプロセスに基づいており、ランダムテキストをナレーションと時間に依存しない知識のプロセスに分解する。
以前の議論では、ナレーションはZipfの分布を持つメモリレスソースであると考えられていた。
本稿では,消失するエントロピー率を持つナレーションのモデルを提案し,多周期列と呼ばれるランダムに選択された決定論的列を適用する。
適切なパラメータ化の下では、多周期列はZipfの法則によって与えられる漸近相対周波数を示す。
自然言語のエントロピー率の価値について無知でありながら、言語モデリングにおける類似の構造の関連性について論じる。
関連論文リスト
- Fully quantum stochastic entropy production [2.3895981099137535]
熱力学のアプローチに基づいて、任意の量子過程に対するエントロピー生成を定義する。
平均エントロピー生成の古典的表現は、入力や出力における統計の比較のみを含むことを示す。
エントロピー生成作用素を構築し、エントロピーの値を非可換なケースに一般化する。
論文 参考訳(メタデータ) (2024-12-17T02:45:10Z) - First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models [1.4061979259370274]
自然言語モデルの枠組みにおける不明瞭な相転移を数値的に示す。
我々は相転移をベレジンスキー-コステリッツ-トゥーレス転移の変種として同定する。
論文 参考訳(メタデータ) (2024-12-02T07:32:32Z) - Causal Layering via Conditional Entropy [85.01590667411956]
因果発見は、生成した観測可能なデータから観測されていない因果グラフに関する情報を回収することを目的としている。
我々は、条件付きエントロピーオラクルを介してデータにアクセスすることによって、グラフの階層化を回復する方法を提供する。
論文 参考訳(メタデータ) (2024-01-19T05:18:28Z) - Observational entropic study of Anderson localization [0.0]
一次元Aubrey-Andr'eモデルにおける局所化・非局在化遷移の文脈における観測エントロピーの挙動について検討する。
粗粒化では、非局在化相のシステムサイズと対数的に増加し、局所化相の領域法則に従う。
また、観測エントロピーの増加に続き、量子クエンチは非局在化相および遷移点における対数であり、局所化相では発振する。
論文 参考訳(メタデータ) (2022-09-21T11:26:43Z) - Entropy Production and the Role of Correlations in Quantum Brownian
Motion [77.34726150561087]
量子ブラウン運動のカルデイラ・レゲットモデルにおいて、量子エントロピーの生成、異なる種類の相関、およびそれらの相互作用について研究する。
論文 参考訳(メタデータ) (2021-08-05T13:11:05Z) - Aspects of Pseudo Entropy in Field Theories [0.0]
自由スカラー場の理論とXYスピンモデルを数値的に解析する。
これは多体系における擬エントロピーの基本的性質を明らかにする。
差の非正則性は、初期状態と最終状態が異なる量子相に属する場合にのみ破ることができる。
論文 参考訳(メタデータ) (2021-06-06T13:25:35Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Shannon Entropy Rate of Hidden Markov Processes [77.34726150561087]
隠れマルコフ連鎖のエントロピー率を計算する方法を示す。
また,この手法が最小限の無限予測的特徴を与えることを示す。
続編は、構造に関するチャレンジの第2部に対処します。
論文 参考訳(メタデータ) (2020-08-29T00:48:17Z) - Relevant OTOC operators: footprints of the classical dynamics [68.8204255655161]
OTOC-RE定理(OTOC-RE theorem)は、作用素の完備な基底にまとめられたOTOCを第二レニイエントロピー(Renyi entropy)に関連付ける定理である。
関係作用素の小さな集合に対する和は、エントロピーの非常によい近似を得るのに十分であることを示す。
逆に、これは複雑性の別の自然な指標、すなわち時間と関連する演算子の数のスケーリングを提供する。
論文 参考訳(メタデータ) (2020-07-31T19:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。