論文の概要: First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models
- arxiv url: http://arxiv.org/abs/2412.01212v1
- Date: Mon, 02 Dec 2024 07:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:40.784419
- Title: First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models
- Title(参考訳): 言語モデルにおけるベレジンスキー-コステリッツ-チューレス遷移の最初の数値観察
- Authors: Yuma Toji, Jun Takahashi, Vwani Roychowdhury, Hideyuki Miyahara,
- Abstract要約: 自然言語モデルの枠組みにおける不明瞭な相転移を数値的に示す。
我々は相転移をベレジンスキー-コステリッツ-トゥーレス転移の変種として同定する。
- 参考スコア(独自算出の注目度): 1.4061979259370274
- License:
- Abstract: Several power-law critical properties involving different statistics in natural languages -- reminiscent of scaling properties of physical systems at or near phase transitions -- have been documented for decades. The recent rise of large language models (LLMs) has added further evidence and excitement by providing intriguing similarities with notions in physics such as scaling laws and emergent abilities. However, specific instances of classes of generative language models that exhibit phase transitions, as understood by the statistical physics community, are lacking. In this work, inspired by the one-dimensional Potts model in statistical physics we construct a simple probabilistic language model that falls under the class of context sensitive grammars (CSG), and numerically demonstrate an unambiguous phase transition in the framework of a natural language model. We explicitly show that a precisely defined order parameter -- that captures symbol frequency biases in the sentences generated by the language model -- changes from strictly 0 to a strictly nonzero value (in the infinite-length limit of sentences), implying a mathematical singularity arising when tuning the parameter of the stochastic language model we consider. Furthermore, we identify the phase transition as a variant of the Berezinskii-Kosterlitz-Thouless (BKT) transition, which is known to exhibit critical properties not only at the transition point but also in the entire phase. This finding leads to the possibility that critical properties in natural languages may not require careful fine-tuning nor self-organized criticality, but is generically explained by the underlying connection between language structures and the BKT phases.
- Abstract(参考訳): 自然言語の異なる統計にまつわるいくつかの強力な法則的特性 -- 物理システムの相転移や相転移のスケーリング特性を思い起こさせる -- が数十年にわたって記録されてきた。
近年の大規模言語モデル(LLM)の台頭は、拡張法則や創発的能力といった物理学の概念と興味深い類似性を提供することによって、さらなる証拠と興奮をもたらした。
しかし、統計物理学界で理解されているように、位相遷移を示す生成言語モデルの特定の例は欠落している。
この研究は、統計物理学における一次元ポッツモデルに着想を得て、文脈依存文法(CSG)のクラスに該当する単純な確率的言語モデルを構築し、自然言語モデルの枠組みにおける不明確な相転移を数値的に示す。
言語モデルによって生成される文の記号周波数バイアスを正確に定義した順序パラメータが、厳密な0から厳密な非ゼロ値(文の無限長極限)に変化していることを示し、確率的言語モデルのパラメータをチューニングする際に生じる数学的特異性を暗示する。
さらに, 位相遷移をベレジンスキー-コステリッツ-Thouless (BKT) 遷移の変種として同定し, 遷移点だけでなく位相全体においても重要な性質を示すことが知られている。
この発見は、自然言語における臨界特性が、注意深い微調整や自己組織的臨界性を必要としない可能性をもたらすが、言語構造とBKT相の間の基礎的な関係によって一般的に説明される。
関連論文リスト
- Critical Phase Transition in Large Language Models [0.0]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
それらの振る舞いを理解するためには、LCMが時折質的な変化を示すという事実を考慮する必要がある。
温度パラメータが変化すると, LLM に相転移が生じることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T03:37:05Z) - Phase Transitions in the Output Distribution of Large Language Models [0.9374652839580183]
物理系において、温度などのパラメータの変化は、ある物質の状態から別の状態への急激な変化である相転移を誘導することができる。
相転移を識別するタスクは、人間の分析とシステムの事前理解を必要とし、どの低次元特性をモニターし分析するかを絞り込む。
近年,データから位相遷移を自動的に検出する統計手法が物理学界で提案されている。
統計的距離を用いて生成した出力の分布変化を定量化し、次点上の確率分布にアクセスして効率的に推定する。
論文 参考訳(メタデータ) (2024-05-27T12:04:36Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Robustness of the Random Language Model [0.0]
このモデルは、潜在的言語の広大な空間におけるアニーリングの一種として、最初の言語学習の簡単な図を示唆している。
これは、潜在的な単語とカテゴリ間の対称性が自発的に壊れる文法構文への単一の連続的な遷移を意味する。
結果は、言語学における第一言語習得の理論と、機械学習における最近の成功を踏まえて議論される。
論文 参考訳(メタデータ) (2023-09-26T13:14:35Z) - Signatures of a quantum phase transition on a single-mode bosonic model [0.0]
平衡相転移は多体系の微視的挙動から生じる。
これらは熱力学限界における熱力学ポテンシャルの非解析的挙動によって定義される。
これまでの考え方を極端に考えると、そのような制限は拡張されないシステムでも定義できると論じる。
論文 参考訳(メタデータ) (2023-03-22T20:14:45Z) - Scale-Invariant Survival Probability at Eigenstate Transitions [0.0]
典型的なハイゼンベルク時間単位で時間を測定するスケールドサバイバル確率は、固有状態遷移におけるスケール不変の挙動を示すことを示す。
同様の現象はエルゴード性破壊相転移の相互作用する雪崩モデルに現れる。
論文 参考訳(メタデータ) (2022-12-28T16:01:09Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。