論文の概要: Entropy, Thermodynamics and the Geometrization of the Language Model
- arxiv url: http://arxiv.org/abs/2407.21092v1
- Date: Tue, 30 Jul 2024 17:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:35:32.239909
- Title: Entropy, Thermodynamics and the Geometrization of the Language Model
- Title(参考訳): エントロピー・熱力学と言語モデルのジオメトリゼーション
- Authors: Wenzhe Yang,
- Abstract要約: 純粋数学と理論物理学が言語モデル研究にどのように応用できるかを論じる。
数学的に厳密な言語モデルの定義を定式化し、言語モデルに対する分布のモジュライ空間の概念を導入する。
言語モデルに関連するエントロピー関数を定義し、それが言語における多くの興味深い現象をいかに理解できるかを示す。
- 参考スコア(独自算出の注目度): 0.6319623732856363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we discuss how pure mathematics and theoretical physics can be applied to the study of language models. Using set theory and analysis, we formulate mathematically rigorous definitions of language models, and introduce the concept of the moduli space of distributions for a language model. We formulate a generalized distributional hypothesis using functional analysis and topology. We define the entropy function associated with a language model and show how it allows us to understand many interesting phenomena in languages. We argue that the zero points of the entropy function and the points where the entropy is close to 0 are the key obstacles for an LLM to approximate an intelligent language model, which explains why good LLMs need billions of parameters. Using the entropy function, we formulate a conjecture about AGI. Then, we show how thermodynamics gives us an immediate interpretation to language models. In particular we will define the concepts of partition function, internal energy and free energy for a language model, which offer insights into how language models work. Based on these results, we introduce a general concept of the geometrization of language models and define what is called the Boltzmann manifold. While the current LLMs are the special cases of the Boltzmann manifold.
- Abstract(参考訳): 本稿では,純粋数学と理論物理学が言語モデル研究にどのように応用できるかを論じる。
集合論と解析を用いて、言語モデルの数学的に厳密な定義を定式化し、言語モデルに対する分布のモジュライ空間の概念を導入する。
関数解析とトポロジーを用いて一般化分布仮説を定式化する。
言語モデルに関連するエントロピー関数を定義し、それが言語における多くの興味深い現象をいかに理解できるかを示す。
エントロピー関数の零点とエントロピーが 0 に近い点が、LLM が知的言語モデルに近似する鍵となる障害であり、なぜ優れた LLM が何十億ものパラメータを必要とするのかを説明する。
エントロピー関数を用いて、AGIに関する予想を定式化する。
次に,熱力学が言語モデルに対する即時解釈をいかに提供するかを示す。
特に、分配関数、内部エネルギー、言語モデルに対する自由エネルギーの概念を定義し、言語モデルがどのように機能するかについての洞察を提供する。
これらの結果に基づき、言語モデルのジオメトリゼーションの一般的な概念を導入し、ボルツマン多様体と呼ばれるものを定義する。
現在の LLM はボルツマン多様体の特別な場合である。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Mathematically Modeling the Lexicon Entropy of Emergent Language [1.52292571922932]
我々は、深層学習に基づく創発言語システムにおける辞書エントロピーの数学的モデルとして、FiLexというプロセスを定式化する。
我々は、FiLexがハイパーパラメータとレキシコンエントロピーの正確な相関を予測できる4つの異なる環境を経験的に検証した。
論文 参考訳(メタデータ) (2022-11-28T21:35:24Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - PhysNLU: A Language Resource for Evaluating Natural Language
Understanding and Explanation Coherence in Physics [1.4123037008246728]
本稿では,言語モデルの性能を評価するために開発されたデータセットの集合について述べる。
データの解析は、物理学の談話で最もよく見られる方程式やサブディシデントを明らかにする。
物理におけるコヒーレンス関連タスクによって現代言語モデルがどのように挑戦されているかを示すベースラインを提示する。
論文 参考訳(メタデータ) (2022-01-12T02:32:40Z) - Transformers in the loop: Polarity in neural models of language [0.20305676256390934]
我々は2つの事前学習されたトランスフォーマーモデルにおいて、いわゆる「負極性アイテム」を介して極性を探索する。
言語モデルから得られたメトリクスは、言語理論の予測よりも、心理言語実験のデータと一致していることを示す。
論文 参考訳(メタデータ) (2021-09-08T20:56:32Z) - PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D
World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。
PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。
80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文 参考訳(メタデータ) (2021-06-01T02:32:12Z) - A unified diagrammatic approach to topological fixed point models [0.0]
固定点モデルを記述するための体系的な数学的言語を導入し、それを物質のトポロジ的位相の研究に適用する。
このフレームワークはステートサムモデルや格子トポロジカル量子場理論を思い起こさせるが、テンソルネットワークの観点で形式化され統一されている。
位相的に順序付けられた位相の基底状態を研究するための既存のテンソルネットワークとは対照的に、我々の形式論におけるテンソルネットワークはユークリッド時空における離散経路積分を表す。
論文 参考訳(メタデータ) (2020-11-24T12:40:11Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。