論文の概要: Token embeddings violate the manifold hypothesis
- arxiv url: http://arxiv.org/abs/2504.01002v1
- Date: Tue, 01 Apr 2025 17:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:05.108008
- Title: Token embeddings violate the manifold hypothesis
- Title(参考訳): トーケン埋め込みは多様体仮説に反する
- Authors: Michael Robinson, Sourya Dey, Tony Chiang,
- Abstract要約: 大規模言語モデルの入力領域であるトークン埋め込みの構造を解明する。
本稿では,各トークンの近傍を適切に定義された信号と雑音の次元に分割した一般化および統計的に検証可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 1.5621144215664768
- License:
- Abstract: To fully understand the behavior of a large language model (LLM) requires our understanding of its input space. If this input space differs from our assumption, our understanding of and conclusions about the LLM is likely flawed, regardless of its architecture. Here, we elucidate the structure of the token embeddings, the input domain for LLMs, both empirically and theoretically. We present a generalized and statistically testable model where the neighborhood of each token splits into well-defined signal and noise dimensions. This model is based on a generalization of a manifold called a fiber bundle, so we denote our hypothesis test as the ``fiber bundle null.'' Failing to reject the null is uninformative, but rejecting it at a specific token indicates that token has a statistically significant local structure, and so is of interest to us. By running our test over several open-source LLMs, each with unique token embeddings, we find that the null is frequently rejected, and so the token subspace is provably not a fiber bundle and hence also not a manifold. As a consequence of our findings, when an LLM is presented with two semantically equivalent prompts, and if one prompt contains a token implicated by our test, that prompt will likely exhibit more output variability proportional to the local signal dimension of the token.
- Abstract(参考訳): 大規模言語モデル(LLM)の振る舞いを十分に理解するには,入力空間の理解が必要である。
この入力空間が我々の仮定と異なる場合、LLMに関する我々の理解と結論は、アーキテクチャに関係なく、おそらく欠陥がある。
ここでは, LLMの入力領域であるトークン埋め込みの構造を経験的かつ理論的に解明する。
本稿では,各トークンの近傍を適切に定義された信号と雑音の次元に分割した一般化および統計的に検証可能なモデルを提案する。
このモデルはファイバーバンドルと呼ばれる多様体の一般化に基づいているので、仮説テストは ``fiber bundle null である。
'' null を拒否できないことは非形式的であるが、特定のトークンで拒否することは、トークンが統計的に重要な局所構造を持っていることを示している。
いくつかのオープンソース LLM 上でテストを実行することで、それぞれがユニークなトークン埋め込みを持つので、null は頻繁に拒否されるので、トークン部分空間は確実にファイバーバンドルではなく、したがって多様体でもないことが分かる。
その結果、LLMに意味論的に等価な2つのプロンプトが提示され、もし1つのプロンプトが我々のテストによって暗示されたトークンを含むなら、そのプロンプトはトークンの局所的な信号次元に比例するより多くの出力変動を示す可能性が高い。
関連論文リスト
- Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Non-Halting Queries: Exploiting Fixed Points in LLMs [4.091772241106195]
我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
非半減期異常が出現する条件を厳密に分析する。
ベースアンアライメントモデルで実施された多くの実験において,非ハーフティングクエリを実演する。
論文 参考訳(メタデータ) (2024-10-08T18:38:32Z) - Where is the signal in tokenization space? [31.016041295876864]
大規模言語モデル (LLM) は通常、テキストを決定論的に標準的なトークンシーケンスにエンコードするトークン化器を伴って出荷される。
本稿では,非標準トークン化について検討する。
論文 参考訳(メタデータ) (2024-08-16T05:56:10Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。