Fugu-MT 論文翻訳(概要): The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces

論文の概要: The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces

arxiv url: http://arxiv.org/abs/2410.13194v1
Date: Thu, 17 Oct 2024 03:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.736595
Title: The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces
Title（参考訳）: 数値推論の幾何学:言語モデルによる線形部分空間の数値特性の比較
Authors: Ahmed Oumar El-Shangiti, Tatsuya Hiraoka, Hilal AlQuabeh, Benjamin Heinzerling, Kentaro Inui,
Abstract要約: 本稿では,大規模言語モデル(LLM)が論理比較問題に答える際に,埋め込み空間の低次元部分空間に符号化された数値属性を利用するかどうかを検討する。まず,これらの部分空間を最小二乗回帰を用いて同定し,比較プロンプトに関連付けられた数値特性を効果的に符号化した。
参考スコア（独自算出の注目度）: 22.31258265337828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates whether large language models (LLMs) utilize numerical attributes encoded in a low-dimensional subspace of the embedding space when answering logical comparison questions (e.g., Was Cristiano born before Messi?). We first identified these subspaces using partial least squares regression, which effectively encodes the numerical attributes associated with the entities in comparison prompts. Further, we demonstrate causality by intervening in these subspaces to manipulate hidden states, thereby altering the LLM's comparison outcomes. Experimental results show that our findings hold for different numerical attributes, indicating that LLMs utilize the linearly encoded information for numerical reasoning.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) が論理比較質問に答える際に, 埋め込み空間の低次元部分空間に符号化された数値属性を利用するかどうかを検討する。まず,これらの部分空間を最小二乗回帰を用いて同定し,比較プロンプトに関連付けられた数値特性を効果的に符号化した。さらに,これらの部分空間に介在して隠れ状態を操作することで因果性を示し,LLMの比較結果を変化させる。実験結果から,LLMは線形符号化された情報を数値推論に用いていることが示唆された。

関連論文リスト

When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
Number Representations in LLMs: A Computational Parallel to Human Perception [17.769013342964794]
本研究では,大言語モデル (LLM) が内部の数値表現に類似した対数構造を持つかどうかを検討する。その結果, モデルの数値表現は, 対数スケールに一致した値間の距離で, サブ線形間隔を示すことがわかった。
論文参考訳（メタデータ） (2025-02-22T08:44:29Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。理論的な洞察と経験的検証の両方を、近年のモデルで提供します。量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文参考訳（メタデータ） (2025-02-10T20:09:16Z)
A Comparative Study of Learning Paradigms in Large Language Models via Intrinsic Dimension [16.671316494925346]
大規模言語モデル(LLM)の隠れ表現に対する教師付き微調整と文脈内学習の効果について検討する。我々はまず,LLM表現のIDがSFT中にどのように進化するか,ICLにおける実演数によってどのように変化するかを検討する。次に、SFTとICLによって誘導されるIDを比較し、ICLはSFTと比較して常に高いIDを誘導する。
論文参考訳（メタデータ） (2024-12-09T06:37:35Z)
Language Models Encode Numbers Using Digit Representations in Base 10 [12.913172023910203]
本稿では,大規模言語モデル (LLM) が単純な数値問題を扱う際に誤りを犯すことを示す。 LLMは内部的に、基数10の個々の円の表現を持つ数を表す。この数値表現は、数値推論を含むタスクにおけるモデルの誤りパターンに光を当てる。
論文参考訳（メタデータ） (2024-10-15T17:00:15Z)
Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models [14.594698598522797]
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがるより解釈可能な空間に変換する。実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
論文参考訳（メタデータ） (2024-10-09T15:18:57Z)
Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文参考訳（メタデータ） (2024-10-05T02:58:25Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文参考訳（メタデータ） (2024-01-08T08:54:22Z)
More than Correlation: Do Large Language Models Learn Causal Representations of Space? [6.293100288400849]
本研究では,大規模言語モデルにおける空間表現の因果関係を明らかにすることに焦点を当てた。実験の結果,空間表現が次の単語予測におけるモデルの性能に影響を与え,地理空間情報に依存する下流課題が示された。
論文参考訳（メタデータ） (2023-12-26T01:27:29Z)
Representation Of Lexical Stylistic Features In Language Models' Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。 5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文参考訳（メタデータ） (2023-05-29T23:44:26Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。 Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文参考訳（メタデータ） (2023-01-07T11:12:36Z)
Log-Euclidean Signatures for Intrinsic Distances Between Unaligned Datasets [47.20862716252927]
我々は、多様体学習を用いて、異なるデータセットの固有幾何学構造を比較する。対数ユークリッド計量の下限に基づいて、理論上動機付けられた新しい距離を定義する。
論文参考訳（メタデータ） (2022-02-03T16:37:23Z)
Multilevel orthogonal Bochner function subspaces with applications to robust machine learning [1.533771872970755]
このデータを、関連するボヒナー空間内のランダムフィールドのインスタンスとみなす。私たちのキーとなる観察は、クラスが主に2つの異なる部分空間に存在することである。
論文参考訳（メタデータ） (2021-10-04T22:01:01Z)
The Low-Dimensional Linear Geometry of Contextualized Word Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文参考訳（メタデータ） (2021-05-15T00:58:08Z)
Null It Out: Guarding Protected Attributes by Iterative Nullspace Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文参考訳（メタデータ） (2020-04-16T14:02:50Z)
Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文参考訳（メタデータ） (2020-04-09T12:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。