論文の概要: Correlation Dimension of Natural Language in a Statistical Manifold
- arxiv url: http://arxiv.org/abs/2405.06321v2
- Date: Wed, 15 May 2024 07:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:24:45.370392
- Title: Correlation Dimension of Natural Language in a Statistical Manifold
- Title(参考訳): 統計的多様体における自然言語の相関次元
- Authors: Xin Du, Kumiko Tanaka-Ishii,
- Abstract要約: 言語は多フラクタルで、大域的な自己相似性を持ち、普遍次元は約6.5であることを示す。
本手法は実世界の離散列の確率モデルに適用可能であり,音楽データに適用できることを示す。
- 参考スコア(独自算出の注目度): 24.56214029342293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The correlation dimension of natural language is measured by applying the Grassberger-Procaccia algorithm to high-dimensional sequences produced by a large-scale language model. This method, previously studied only in a Euclidean space, is reformulated in a statistical manifold via the Fisher-Rao distance. Language exhibits a multifractal, with global self-similarity and a universal dimension around 6.5, which is smaller than those of simple discrete random sequences and larger than that of a Barab\'asi-Albert process. Long memory is the key to producing self-similarity. Our method is applicable to any probabilistic model of real-world discrete sequences, and we show an application to music data.
- Abstract(参考訳): 自然言語の相関次元は、大規模言語モデルによって生成される高次元列にグラスベルガー・プロカシアアルゴリズムを適用することによって測定される。
この方法は、以前はユークリッド空間でのみ研究されていたが、フィッシャー・ラオ距離を通じて統計多様体で再構成される。
言語は多フラクタルで、大域的な自己相似性と6.5の普遍次元を持ち、これは単純な離散乱数列よりも小さく、バラブ・アシ=アルベルト過程よりも大きい。
長期記憶は自己相似性を生み出す鍵である。
本手法は実世界の離散列の確率モデルに適用可能であり,音楽データに適用できることを示す。
関連論文リスト
- Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Universal approximation property of Banach space-valued random feature models including random neural networks [3.3379026542599934]
ランダムな特徴学習におけるバナッハ空間値の拡張を提案する。
特徴マップをランダムに初期化することにより、線形読み出しのみをトレーニングする必要がある。
我々は、与えられたバナッハ空間の要素を学ぶための近似率と明示的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-12-13T11:27:15Z) - Robust Statistical Comparison of Random Variables with Locally Varying
Scale of Measurement [0.562479170374811]
異なる次元の多次元構造のような局所的に異なる測定スケールを持つ空間は、統計学や機械学習において非常に一般的である。
我々は、そのような非標準空間に写像される確率変数の期待値(集合)に基づく順序を考えることで、この問題に対処する。
この順序は、極端ケースとして支配性や期待順序を含む。
論文 参考訳(メタデータ) (2023-06-22T11:02:18Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - A Measure-Theoretic Characterization of Tight Language Models [105.16477132329416]
病理学的には「確率質量」が無限列の集合に漏れることがある。
本稿では,言語モデリングの尺度論的扱いについて述べる。
多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。
論文 参考訳(メタデータ) (2022-12-20T18:17:11Z) - Sparse Infinite Random Feature Latent Variable Modeling [6.063419970703021]
後続空間において、潜在空間におけるインスタンス化された次元の数は有限であることが保証される。
従来の潜在変数モデルよりも優れたテストセット性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-20T00:29:28Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z) - Linear-time inference for Gaussian Processes on one dimension [17.77516394591124]
本研究では,その線形スケーリング計算コストから,状態空間モデルが人気である1次元のサンプルデータについて検討する。
状態空間モデルは一般であり、任意の1次元ガウス過程を近似できるという予想の最初の一般的な証明を提供する。
LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。
論文 参考訳(メタデータ) (2020-03-11T23:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。