論文の概要: LLMs Know More About Numbers than They Can Say
- arxiv url: http://arxiv.org/abs/2602.07812v2
- Date: Tue, 17 Feb 2026 13:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 13:57:33.579058
- Title: LLMs Know More About Numbers than They Can Say
- Title(参考訳): LLMは「数字」よりも「数字」をよく知っている
- Authors: Fengting Yuchi, Li Du, Jason Eisner,
- Abstract要約: 我々は、いくつかの小さなオープンソース LLM の隠れ状態について調査する。
適切な隠蔽層の1つの線形射影は、両方の種類の数字の対数マグニチュードを符号化する。
分類器プローブのログロスを微調整の補助目的として組み込むことにより,ベースモデルよりも3.22%の精度が向上することを示す。
- 参考スコア(独自算出の注目度): 31.208298093057735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although state-of-the-art LLMs can solve math problems, we find that they make errors on numerical comparisons with mixed notation: "Which is larger, $5.7 \times 10^2$ or $580$?" This raises a fundamental question: Do LLMs even know how big these numbers are? We probe the hidden states of several smaller open-source LLMs. A single linear projection of an appropriate hidden layer encodes the log-magnitudes of both kinds of numerals, allowing us to recover the numbers with relative error of about 2.3% (on restricted synthetic text) or 19.06% (on scientific papers). Furthermore, the hidden state after reading a pair of numerals encodes their ranking, with a linear classifier achieving over 90% accuracy. Yet surprisingly, when explicitly asked to rank the same pairs of numerals, these LLMs achieve only 50-70% accuracy, with worse performance for models whose probes are less effective. Finally, we show that incorporating the classifier probe's log-loss as an auxiliary objective during finetuning brings an additional 3.22% improvement in verbalized accuracy over base models, demonstrating that improving models' internal magnitude representations can enhance their numerical reasoning capabilities. Our code is available at https://github.com/VCY019/Numeracy-Probing.
- Abstract(参考訳): 最先端のLLMは数学の問題を解くことができるが、混合記法による数値比較の誤差は「5.7 \times 10^2$または580$?
LLMは、これらの数字がどれほど大きいかを知っていますか?
我々は、いくつかの小さなオープンソース LLM の隠れ状態について調査する。
適切な隠れ層の1つの線形射影は、両方の数字の対数マグニチュードを符号化し、相対誤差を約2.3%(制限された合成テキストでは)または19.06%(科学論文では)で回復する。
さらに、一対の数字を読んだ後の隠れ状態はそのランクを符号化し、線形分類器は90%以上の精度を達成している。
さらに驚くべきことに、同じ数値のペアを明示的にランク付けするように要求された場合、これらのLLMは50-70%の精度しか達成せず、プローブの効率が低いモデルでは性能が低下する。
最後に,分類器プローブのログロスを微調整の補助目的として組み込むことで,ベースモデルよりも3.22%の精度が向上し,モデルの内部等級表現の改善が数値推論能力を向上させることを示した。
私たちのコードはhttps://github.com/VCY019/Numeracy-Probing.comで公開されています。
関連論文リスト
- Can LLMs subtract numbers? [35.96520408823125]
8種類の事前学習型大言語モデル (LLM) を加算および減算問題に基づいて評価した。
実験により、減算精度は加算の遅れを広いマージンで示している。
我々は,LLMの性能を向上できるかどうかを確認するため,小文字学習や命令チューニングなどの手法を試験する。
論文 参考訳(メタデータ) (2025-11-04T18:20:17Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully [9.796854466591942]
本稿では,大規模言語モデルのより真に復号化を支援するための推論時間法,Self-Highlighted Hesitation (SH2)を提案する。
実験の結果,我々のSH2は,LLMが事実知識を抽出し,幻覚的文脈を識別するのに役立つことが示された。
論文 参考訳(メタデータ) (2024-01-11T14:09:09Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。