論文の概要: Directed Metric Structures arising in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.12264v1
- Date: Mon, 20 May 2024 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 15:17:08.582929
- Title: Directed Metric Structures arising in Large Language Models
- Title(参考訳): 大規模言語モデルにおける方向付きメトリック構造
- Authors: Stéphane Gaubert, Yiannis Vlassopoulos,
- Abstract要約: テキスト拡張の条件付き確率分布によって定義される数学的構造を求める。
確率から-log確率へ視点を変えることで、サブテキストの順序がメートル法構造に完全にエンコードされていることが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are transformer neural networks which are trained to produce a probability distribution on the possible next words to given texts in a corpus, in such a way that the most likely word predicted is the actual word in the training text. In this paper we find what is the mathematical structure defined by such conditional probability distributions of text extensions. Changing the view point from probabilities to -log probabilities we observe that the subtext order is completely encoded in a metric structure defined on the space of texts $\mathcal{L}$, by -log probabilities. We then construct a metric polyhedron $P(\mathcal{L})$ and an isometric embedding (called Yoneda embedding) of $\mathcal{L}$ into $P(\mathcal{L})$ such that texts map to generators of certain special extremal rays. We explain that $P(\mathcal{L})$ is a $(\min,+)$ (tropical) linear span of these extremal ray generators. The generators also satisfy a system of $(\min+)$ linear equations. We then show that $P(\mathcal{L})$ is compatible with adding more text and from this we derive an approximation of a text vector as a Boltzmann weighted linear combination of the vectors for words in that text. We then prove a duality theorem showing that texts extensions and text restrictions give isometric polyhedra (even though they look a priory very different). Moreover we prove that $P(\mathcal{L})$ is the lattice closure of (a version of) the so called, Isbell completion of $\mathcal{L}$ which turns out to be the $(\max,+)$ span of the text extremal ray generators. All constructions have interpretations in category theory but we don't use category theory explicitly. The categorical interpretations are briefly explained in an appendix. In the final appendix we describe how the syntax to semantics problem could fit in a general well known mathematical duality.
- Abstract(参考訳): 大規模言語モデルは、コーパス内の与えられたテキストに対して、可能な次の単語の確率分布を生成するように訓練されたトランスフォーマーニューラルネットワークである。
本稿では,テキスト拡張の条件付き確率分布によって定義される数学的構造について述べる。
確率から-log確率への視点の変更 私たちは、サブテキストの順序が、-log確率によって$\mathcal{L}$というテキストの空間で定義されたメートル法構造に完全にエンコードされていることを観察する。
次に、計量ポリヘドロン $P(\mathcal{L})$ と $\mathcal{L}$ を $P(\mathcal{L})$ に等尺埋め込み( Yoneda embedding)し、テキストが特定の極端線の生成元にマップするように構成する。
P(\mathcal{L})$はこれらの極端線発生器の$(\min,+)$(熱帯)線型スパンである。
生成元はまた$(\min+)$線型方程式の系を満たす。
すると、$P(\mathcal{L})$はテキストの追加と互換性があることを示し、そこからボルツマン重み付きテキストベクトルの線形結合としてテキストベクトルの近似を導出する。
次に、テキスト拡張とテキスト制限が等長多面体を与えることを示す双対性定理を証明します。
さらに、$P(\mathcal{L})$ はいわゆる (あるバージョンの) の格子閉包であり、$\mathcal{L}$ は extremal ray generators の $(\max,+)$ であることを示す。
すべての構成は圏論の解釈を持つが、圏論を明示的に用いない。
分類学的解釈は付録で簡潔に説明されている。
最後の付録では、意味論問題に対する構文が一般的な数学的双対性にどのように適合するかを記述している。
関連論文リスト
- A Theory of Interpretable Approximations [61.90216959710842]
我々は、ある基底クラス $mathcalH$ の概念の小さな集合によってターゲット概念 $c$ を近似するという考え方を研究する。
任意の$mathcalH$と$c$のペアに対して、これらのケースのちょうど1つが成り立つ: (i) $c$を任意の精度で$mathcalH$で近似することはできない。
解釈可能な近似の場合、近似の複雑さに関するわずかに非自明なa-priori保証でさえ、定数(分布自由かつ精度)の近似を意味することを示す。
論文 参考訳(メタデータ) (2024-06-15T06:43:45Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions [6.164223149261533]
V=phi_i: mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd
論文 参考訳(メタデータ) (2023-05-20T14:50:34Z) - An Approximation Theory for Metric Space-Valued Functions With A View
Towards Deep Learning [25.25903127886586]
任意のポーランド計量空間 $mathcalX$ と $mathcalY$ の間の連続写像の普遍函数近似器を構築する。
特に、必要なディラック測度数は $mathcalX$ と $mathcalY$ の構造によって決定されることを示す。
論文 参考訳(メタデータ) (2023-04-24T16:18:22Z) - Dictionary Learning for the Almost-Linear Sparsity Regime [0.0]
辞書学習は、信号処理やデータ科学における応用においてますます重要になっている。
SPORADIC (SPectral ORAcle DICtionary Learning) は、重み付けされた共分散行列の族に対する効率的なスペクトル法である。
高次元において、SPORADICはよく知られた制限等尺性(RIP)を満たす過剰完備(K > M$)辞書を復元できることを示す。
これらの精度保証は、未知のスパースベクトル $mathbfx_i$ の支持と符号が、高い確率で正確に復元され、任意に閉じることができるような「オラクル特性」を持つ。
論文 参考訳(メタデータ) (2022-10-19T19:35:50Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
楕円体をランダムな点に合わせるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析に関係している。
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
我々の証明は、ある非標準確率行列の便利な分解を用いて、サンダーソン等最小二乗構成の実現可能性を示す。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z) - On Fast Johnson-Lindernstrauss Embeddings of Compact Submanifolds of
$\mathbb{R}^N$ with Boundary [0.4125187280299246]
mathbbRm × N$ のランダム行列 $A がバイリプシッツ函数 $A: MathcalM rightarrow mathbbRm$ とビリプシッツ定数が 1 に近い確率を考える。
我々は、$mathbbRN$ の十分低次元部分多様体を埋め込むための、高度に構造化された分布の新しいクラスを示す。
論文 参考訳(メタデータ) (2021-10-08T15:27:52Z) - Optimal Spectral Recovery of a Planted Vector in a Subspace [80.02218763267992]
我々は、$ell_4$ノルムが同じ$ell$ノルムを持つガウスベクトルと異なるプラントベクトル$v$の効率的な推定と検出について研究する。
規則$n rho gg sqrtN$ では、大クラスのスペクトル法(そしてより一般的には、入力の低次法)は、植込みベクトルの検出に失敗する。
論文 参考訳(メタデータ) (2021-05-31T16:10:49Z) - Learners' languages [0.0]
著者らは、深層学習の基本的な要素である勾配降下とバックプロパゲーションは、強いモノイド関手として概念化できることを示した。
我々は$Ato B$ in $mathbfPara(mathbfSLens)$の写像が動的系の観点から自然な解釈を持っていることを示した。
論文 参考訳(メタデータ) (2021-03-01T18:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。