論文の概要: Language Models Understand Numbers, at Least Partially
- arxiv url: http://arxiv.org/abs/2401.03735v2
- Date: Sun, 4 Feb 2024 05:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:17:01.193072
- Title: Language Models Understand Numbers, at Least Partially
- Title(参考訳): 言語モデルは、少なくとも部分的には数字を理解する
- Authors: Fangwei Zhu, Damai Dai, Zhifang Sui
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、その内部メカニズムは数学的な問題での使用を妨げる。
言語モデルが数学の基本要素である数を理解するかどうかを考察する。
予備的な研究は、LLMが数の部分的な理解を示し、将来のモデルの数学的能力に関する研究の洞察を提供することを示唆している。
- 参考スコア(独自算出の注目度): 32.45872420139116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited impressive competence in various
tasks, but their opaque internal mechanisms hinder their use in mathematical
problems. In this paper, we study a fundamental question: whether language
models understand numbers, a basic element in math. Based on an assumption that
LLMs should be capable of compressing numbers in their hidden states to solve
mathematical problems, we construct a synthetic dataset comprising addition
problems and utilize linear probes to read out input numbers from the hidden
states. Experimental results support the existence of compressed numbers in
LLMs. However, it is difficult to precisely reconstruct the original numbers,
indicating that the compression process may not be lossless. Further
experiments show that LLMs can utilize encoded numbers to perform arithmetic
computations, and the computational ability scales up with the model size. Our
preliminary research suggests that LLMs exhibit a partial understanding of
numbers, offering insights for future investigations about the models'
mathematical capability.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、その不透明な内部メカニズムは数学的な問題での使用を妨げる。
本稿では,数学の基本要素である数を言語モデルが理解するかどうかという基本的な問題について検討する。
本研究では,LLMが隠れ状態の数値を圧縮して数学的問題を解決できるという仮定に基づいて,付加問題を含む合成データセットを構築し,線形プローブを用いて隠れ状態から入力番号を読み取る。
LLMにおける圧縮数の存在を支持する実験結果が得られた。
しかし,原数を正確に再構成することは困難であり,圧縮過程が損なわれない可能性がある。
さらなる実験により、LLMはエンコードされた数を使って算術演算を行え、計算能力はモデルのサイズに匹敵することを示した。
我々の予備的な研究は、LLMが数の部分的理解を示し、将来のモデルの数学的能力に関する知見を提供することを示唆している。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning [99.8200914526817]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - Learning Multi-Step Reasoning by Solving Arithmetic Tasks [6.398022050054328]
本研究では,比較的小さな言語モデルを多段階推論の能力に組み込む方法について検討する。
我々は,合成データセットMsAT上でLMを継続的に事前学習することにより,そのような能力を注入することを提案する。
提案手法の有効性を示す4つの数学単語問題データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-06-02T17:29:22Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。