論文の概要: The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces
- arxiv url: http://arxiv.org/abs/2410.13194v1
- Date: Thu, 17 Oct 2024 03:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:16.683482
- Title: The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces
- Title(参考訳): 数値推論の幾何学:言語モデルによる線形部分空間の数値特性の比較
- Authors: Ahmed Oumar El-Shangiti, Tatsuya Hiraoka, Hilal AlQuabeh, Benjamin Heinzerling, Kentaro Inui,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が論理比較問題に答える際に,埋め込み空間の低次元部分空間に符号化された数値属性を利用するかどうかを検討する。
まず,これらの部分空間を最小二乗回帰を用いて同定し,比較プロンプトに関連付けられた数値特性を効果的に符号化した。
- 参考スコア(独自算出の注目度): 22.31258265337828
- License:
- Abstract: This paper investigates whether large language models (LLMs) utilize numerical attributes encoded in a low-dimensional subspace of the embedding space when answering logical comparison questions (e.g., Was Cristiano born before Messi?). We first identified these subspaces using partial least squares regression, which effectively encodes the numerical attributes associated with the entities in comparison prompts. Further, we demonstrate causality by intervening in these subspaces to manipulate hidden states, thereby altering the LLM's comparison outcomes. Experimental results show that our findings hold for different numerical attributes, indicating that LLMs utilize the linearly encoded information for numerical reasoning.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) が論理比較質問に答える際に, 埋め込み空間の低次元部分空間に符号化された数値属性を利用するかどうかを検討する。
まず,これらの部分空間を最小二乗回帰を用いて同定し,比較プロンプトに関連付けられた数値特性を効果的に符号化した。
さらに,これらの部分空間に介在して隠れ状態を操作することで因果性を示し,LLMの比較結果を変化させる。
実験結果から,LLMは線形符号化された情報を数値推論に用いていることが示唆された。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - A Comparative Study of Learning Paradigms in Large Language Models via Intrinsic Dimension [16.671316494925346]
大規模言語モデル(LLM)の隠れ表現に対する教師付き微調整と文脈内学習の効果について検討する。
我々はまず,LLM表現のIDがSFT中にどのように進化するか,ICLにおける実演数によってどのように変化するかを検討する。
次に、SFTとICLによって誘導されるIDを比較し、ICLはSFTと比較して常に高いIDを誘導する。
論文 参考訳(メタデータ) (2024-12-09T06:37:35Z) - Language Models Encode Numbers Using Digit Representations in Base 10 [12.913172023910203]
本稿では,大規模言語モデル (LLM) が単純な数値問題を扱う際に誤りを犯すことを示す。
LLMは内部的に、基数10の個々の円の表現を持つ数を表す。
この数値表現は、数値推論を含むタスクにおけるモデルの誤りパターンに光を当てる。
論文 参考訳(メタデータ) (2024-10-15T17:00:15Z) - Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models [14.594698598522797]
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがるより解釈可能な空間に変換する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
論文 参考訳(メタデータ) (2024-10-09T15:18:57Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Log-Euclidean Signatures for Intrinsic Distances Between Unaligned
Datasets [47.20862716252927]
我々は、多様体学習を用いて、異なるデータセットの固有幾何学構造を比較する。
対数ユークリッド計量の下限に基づいて、理論上動機付けられた新しい距離を定義する。
論文 参考訳(メタデータ) (2022-02-03T16:37:23Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。