論文の概要: The structure of the token space for large language models
- arxiv url: http://arxiv.org/abs/2410.08993v1
- Date: Fri, 11 Oct 2024 17:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 20:46:27.875127
- Title: The structure of the token space for large language models
- Title(参考訳): 大規模言語モデルのためのトークン空間の構造
- Authors: Michael Robinson, Sourya Dey, Shauna Sweet,
- Abstract要約: 大規模言語モデルは、発話のセグメント(トークン)を高次元の周囲の潜在空間に配置することで、自然言語に存在する相関構造を符号化する。
トークン部分空間の次元とリッチスカラー曲率を推定し、適度な大きさの3つのオープンソースの大言語モデルに適用する。
その結果, 模型の形状と曲率の相関関係が明らかとなり, モデル挙動に影響を及ぼす可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.5621144215664768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models encode the correlational structure present in natural language by fitting segments of utterances (tokens) into a high dimensional ambient latent space upon which the models then operate. We assert that in order to develop a foundational, first-principles understanding of the behavior and limitations of large language models, it is crucial to understand the topological and geometric structure of this token subspace. In this article, we present estimators for the dimension and Ricci scalar curvature of the token subspace, and apply it to three open source large language models of moderate size: GPT2, LLEMMA7B, and MISTRAL7B. In all three models, using these measurements, we find that the token subspace is not a manifold, but is instead a stratified manifold, where on each of the individual strata, the Ricci curvature is significantly negative. We additionally find that the dimension and curvature correlate with generative fluency of the models, which suggest that these findings have implications for model behavior.
- Abstract(参考訳): 大規模言語モデルは、発話のセグメント(トークン)を高次元の周囲の潜在空間に配置することで、自然言語に存在する相関構造を符号化する。
我々は,大規模言語モデルの振る舞いと制約の基本的な第一原理を理解するために,このトークン部分空間の位相的および幾何学的構造を理解することが重要であることを主張する。
本稿では,トークン部分空間の次元およびリッチスカラー曲率を推定し,中程度のサイズの3つのオープンソース大言語モデル(GPT2,LLEMMA7B,MISTRAL7B)に適用する。
これら3つのモデルにおいて、これらの測度を用いて、トークン部分空間は多様体ではなく、代わりに成層多様体であることが分かる。
さらに,次元と曲率がモデルの生成流速と相関し,モデル挙動に影響を及ぼす可能性が示唆された。
関連論文リスト
- Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。
後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文 参考訳(メタデータ) (2024-06-09T14:25:09Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Topological Parallax: A Geometric Specification for Deep Perception
Models [0.778001492222129]
本稿では,学習したモデルを参照データセットと比較する理論的・計算ツールとしてトポロジカルパララックスを導入する。
我々の例では、データセットとモデルの間のこの幾何学的類似性は、信頼性と摂動に不可欠である。
この新しい概念は、ディープラーニングの応用における過度な適合と一般化の間の不明瞭な関係について、現在の議論に価値をもたらすだろう。
論文 参考訳(メタデータ) (2023-06-20T18:45:24Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Unveiling the Latent Space Geometry of Push-Forward Generative Models [24.025975236316846]
多くの深い生成モデルは、GAN(Generative Adversarial Networks)やVAE(Varial Auto-Encoders)のような連続生成器によってガウス測度のプッシュフォワードとして定義される。
この研究は、そのような深層生成モデルの潜伏空間を探索する。
これらのモデルの主な問題は、非連結分布を学習する際に、対象分布の支持外からサンプルを出力する傾向があることである。
論文 参考訳(メタデータ) (2022-07-21T15:29:35Z) - Geometry Interaction Knowledge Graph Embeddings [153.69745042757066]
ユークリッド空間,双曲空間,超球空間間の空間構造を対話的に学習する幾何学的相互作用知識グラフ埋め込み(GIE)を提案する。
提案したGIEは、よりリッチなリレーショナル情報、モデルキー推論パターンをキャプチャし、エンティティ間の表現的セマンティックマッチングを可能にする。
論文 参考訳(メタデータ) (2022-06-24T08:33:43Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Atlas Generative Models and Geodesic Interpolation [0.20305676256390928]
我々は,Atlas Generative Models (AGMs) の一般クラスを定義する。
グラフに基づく測地線のアルゴリズムをAGMの設定に一般化してこれを実証し、その性能を実験的に検証する。
論文 参考訳(メタデータ) (2021-01-30T16:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。