論文の概要: Number Representations in LLMs: A Computational Parallel to Human Perception
- arxiv url: http://arxiv.org/abs/2502.16147v1
- Date: Sat, 22 Feb 2025 08:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:33.759553
- Title: Number Representations in LLMs: A Computational Parallel to Human Perception
- Title(参考訳): LLMにおける数値表現:人間の知覚に対する計算的並列性
- Authors: H. V. AlquBoj, Hilal AlQuabeh, Velibor Bojkovic, Tatsuya Hiraoka, Ahmed Oumar El-Shangiti, Munachiso Nwadike, Kentaro Inui,
- Abstract要約: 本研究では,大言語モデル (LLM) が内部の数値表現に類似した対数構造を持つかどうかを検討する。
その結果, モデルの数値表現は, 対数スケールに一致した値間の距離で, サブ線形間隔を示すことがわかった。
- 参考スコア(独自算出の注目度): 17.769013342964794
- License:
- Abstract: Humans are believed to perceive numbers on a logarithmic mental number line, where smaller values are represented with greater resolution than larger ones. This cognitive bias, supported by neuroscience and behavioral studies, suggests that numerical magnitudes are processed in a sublinear fashion rather than on a uniform linear scale. Inspired by this hypothesis, we investigate whether large language models (LLMs) exhibit a similar logarithmic-like structure in their internal numerical representations. By analyzing how numerical values are encoded across different layers of LLMs, we apply dimensionality reduction techniques such as PCA and PLS followed by geometric regression to uncover latent structures in the learned embeddings. Our findings reveal that the model's numerical representations exhibit sublinear spacing, with distances between values aligning with a logarithmic scale. This suggests that LLMs, much like humans, may encode numbers in a compressed, non-uniform manner.
- Abstract(参考訳): 人間は、より小さな値がより大きな値よりも大きな解像度で表される対数的なメンタルナンバーラインで数字を知覚すると考えられている。
この認知バイアスは、神経科学と行動研究によって支持され、一様線形スケールではなく、サブリニアな方法で数値が処理されることを示唆している。
この仮説に着想を得て,大言語モデル (LLM) が内部の数値表現に類似した対数構造を示すか否かを考察した。
LLMの異なる層にまたがって数値値をエンコードする方法を解析することにより,PCAやPLSなどの次元的低減手法を応用し,幾何回帰法を用いて学習した埋め込みの潜伏構造を明らかにする。
その結果, モデルの数値表現は, 対数スケールに一致した値間の距離で, サブ線形間隔を示すことがわかった。
このことは、LLMが人間と同様、圧縮された非均一な方法で数値を符号化する可能性があることを示唆している。
関連論文リスト
- The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces [22.31258265337828]
本稿では,大規模言語モデル (LLM) が数値比較を含む疑問に答える際に,埋め込み空間の低次元部分空間に符号化された数値属性を利用するかどうかを検討する。
まず, 部分最小二乗回帰を用いて, これらの部分空間を同定し, 比較プロンプトの要素に関連付けられた数値特性を効果的に符号化した。
論文 参考訳(メタデータ) (2024-10-17T03:44:11Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z) - Learning Discretized Neural Networks under Ricci Flow [48.47315844022283]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z) - Interpolation and Learning with Scale Dependent Kernels [91.41836461193488]
非パラメトリックリッジレス最小二乗の学習特性について検討する。
スケール依存カーネルで定義される推定器の一般的な場合を考える。
論文 参考訳(メタデータ) (2020-06-17T16:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。