論文の概要: When can isotropy help adapt LLMs' next word prediction to numerical domains?
- arxiv url: http://arxiv.org/abs/2505.17135v2
- Date: Mon, 26 May 2025 03:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.833908
- Title: When can isotropy help adapt LLMs' next word prediction to numerical domains?
- Title(参考訳): 等方性はLLMの次の単語予測を数値領域に適応するのに有効か?
- Authors: Rashed Shelim, Shengzhe Xu, Walid Saad, Naren Ramakrishnan,
- Abstract要約: 文脈埋め込み空間におけるLLM埋め込みの等方性は、表現の基盤構造をいかに保っているかを示す。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響を与える可能性が示されている。
- 参考スコア(独自算出の注目度): 53.98633183204453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have shown that vector representations of contextual embeddings learned by pre-trained large language models (LLMs) are effective in various downstream tasks in numerical domains. Despite their significant benefits, the tendency of LLMs to hallucinate in such domains can have severe consequences in applications such as energy, nature, finance, healthcare, retail and transportation, among others. To guarantee prediction reliability and accuracy in numerical domains, it is necessary to open the black-box and provide performance guarantees through explanation. However, there is little theoretical understanding of when pre-trained language models help solve numeric downstream tasks. This paper seeks to bridge this gap by understanding when the next-word prediction capability of LLMs can be adapted to numerical domains through a novel analysis based on the concept of isotropy in the contextual embedding space. Specifically, we consider a log-linear model for LLMs in which numeric data can be predicted from its context through a network with softmax in the output layer of LLMs (i.e., language model head in self-attention). We demonstrate that, in order to achieve state-of-the-art performance in numerical domains, the hidden representations of the LLM embeddings must possess a structure that accounts for the shift-invariance of the softmax function. By formulating a gradient structure of self-attention in pre-trained models, we show how the isotropic property of LLM embeddings in contextual embedding space preserves the underlying structure of representations, thereby resolving the shift-invariance problem and providing a performance guarantee. Experiments show that different characteristics of numeric data and model architecture could have different impacts on isotropy.
- Abstract(参考訳): 近年の研究では、事前学習された大規模言語モデル(LLM)によって学習された文脈埋め込みのベクトル表現が、数値領域における様々な下流タスクに有効であることが示されている。
それらの大きな利点にもかかわらず、こうした領域でLLMが幻覚する傾向は、エネルギー、自然、金融、医療、小売、輸送などの応用に深刻な影響を及ぼす可能性がある。
数値領域における予測信頼性と精度を保証するためには,ブラックボックスを開き,説明を通じて性能保証を行う必要がある。
しかし、事前訓練された言語モデルが数値下流タスクの解決にいつ役立つかは理論的にはほとんど分かっていない。
本稿では,LLMの次単語予測能力が,文脈埋め込み空間における等方性の概念に基づく新しい解析により,数値領域に適応可能であることを理解することで,このギャップを埋めることを模索する。
具体的には、LLMの出力層(言語モデルヘッドの自己注意)にソフトマックスを持つネットワークを通じて、そのコンテキストから数値データを予測できるLLMの対数線形モデルを考える。
数値領域における最先端性能を達成するために,LLM埋め込みの隠蔽表現はソフトマックス関数のシフト不変性を考慮した構造を持つ必要があることを示す。
事前学習されたモデルにおける自己注意の勾配構造を定式化することにより、文脈埋め込み空間におけるLLM埋め込みの等方性は、表現の基盤構造を保ち、シフト不変問題を解消し、性能保証を提供することを示す。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響を与える可能性が示されている。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。