論文の概要: LLMs Know More About Numbers than They Can Say
- arxiv url: http://arxiv.org/abs/2602.07812v1
- Date: Sun, 08 Feb 2026 04:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.811118
- Title: LLMs Know More About Numbers than They Can Say
- Title(参考訳): LLMは「数字」よりも「数字」をよく知っている
- Authors: Fengting Yuchi, Li Du, Jason Eisner,
- Abstract要約: 我々は、いくつかの小さなオープンソース LLM の隠れ状態について調査する。
適切な隠蔽層の1つの線形射影は、両方の種類の数字の対数マグニチュードを符号化する。
分類器プローブのログロスを微調整の補助目的として組み込むことにより,ベースモデルよりも3.22%の精度が向上することを示す。
- 参考スコア(独自算出の注目度): 31.208298093057735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although state-of-the-art LLMs can solve math problems, we find that they make errors on numerical comparisons with mixed notation: "Which is larger, $5.7 \times 10^2$ or $580$?" This raises a fundamental question: Do LLMs even know how big these numbers are? We probe the hidden states of several smaller open-source LLMs. A single linear projection of an appropriate hidden layer encodes the log-magnitudes of both kinds of numerals, allowing us to recover the numbers with relative error of about 2.3% (on restricted synthetic text) or 19.06% (on scientific papers). Furthermore, the hidden state after reading a pair of numerals encodes their ranking, with a linear classifier achieving over 90% accuracy. Yet surprisingly, when explicitly asked to rank the same pairs of numerals, these LLMs achieve only 50-70% accuracy, with worse performance for models whose probes are less effective. Finally, we show that incorporating the classifier probe's log-loss as an auxiliary objective during finetuning brings an additional 3.22% improvement in verbalized accuracy over base models, demonstrating that improving models' internal magnitude representations can enhance their numerical reasoning capabilities.
- Abstract(参考訳): 最先端のLLMは数学の問題を解くことができるが、混合記法による数値比較の誤差は「5.7 \times 10^2$または580$?
LLMは、これらの数字がどれほど大きいかを知っていますか?
我々は、いくつかの小さなオープンソース LLM の隠れ状態について調査する。
適切な隠れ層の1つの線形射影は、両方の数字の対数マグニチュードを符号化し、相対誤差を約2.3%(制限された合成テキストでは)または19.06%(科学論文では)で回復する。
さらに、一対の数字を読んだ後の隠れ状態はそのランクを符号化し、線形分類器は90%以上の精度を達成している。
さらに驚くべきことに、同じ数値のペアを明示的にランク付けするように要求された場合、これらのLLMは50-70%の精度しか達成せず、プローブの効率が低いモデルでは性能が低下する。
最後に,分類器プローブのログロスを微調整の補助目的として組み込むことで,ベースモデルよりも3.22%の精度が向上し,モデルの内部等級表現の改善が数値推論能力を向上させることを示した。
関連論文リスト
- Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully [9.796854466591942]
本稿では,大規模言語モデルのより真に復号化を支援するための推論時間法,Self-Highlighted Hesitation (SH2)を提案する。
実験の結果,我々のSH2は,LLMが事実知識を抽出し,幻覚的文脈を識別するのに役立つことが示された。
論文 参考訳(メタデータ) (2024-01-11T14:09:09Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。