論文の概要: NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2404.00459v2
- Date: Thu, 26 Sep 2024 09:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 03:37:09.929638
- Title: NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning
- Title(参考訳): NumeroLogic: 拡張LDMの数値推論のための数値符号化
- Authors: Eli Schwartz, Leshem Choshen, Joseph Shtok, Sivan Doveh, Leonid Karlinsky, Assaf Arbelle,
- Abstract要約: 言語モデルは数値データを扱い、算術演算を行うのに苦労する。
本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
- 参考スコア(独自算出の注目度): 27.584258258635945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models struggle with handling numerical data and performing arithmetic operations. We hypothesize that this limitation can be partially attributed to non-intuitive textual numbers representation. When a digit is read or generated by a causal language model it does not know its place value (e.g. thousands vs. hundreds) until the entire number is processed. To address this issue, we propose a simple adjustment to how numbers are represented by including the count of digits before each number. For instance, instead of "42", we suggest using "{2:42}" as the new format. This approach, which we term NumeroLogic, offers an added advantage in number generation by serving as a Chain of Thought (CoT). By requiring the model to consider the number of digits first, it enhances the reasoning process before generating the actual number. We use arithmetic tasks to demonstrate the effectiveness of the NumeroLogic formatting. We further demonstrate NumeroLogic applicability to general natural language modeling, improving language understanding performance in the MMLU benchmark.
- Abstract(参考訳): 言語モデルは数値データを扱い、算術演算を行うのに苦労する。
我々は、この制限は直観的でないテキスト数表現に部分的に帰属できると仮定する。
数字が因果言語モデルで読み取られたり生成されたりすると、その位置値(例えば、数千対数百)が全数値が処理されるまでは分からない。
この問題に対処するために,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する手法を提案する。
例えば、"42"の代わりに、新しいフォーマットとして"{2:42}"を使うことを提案する。
このアプローチは、NumeroLogicと呼ばれ、CoT(Chain of Thought)として機能することで、数生成にさらなる利点をもたらす。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
NumeroLogicフォーマッティングの有効性を示すために,算術的タスクを用いる。
さらに,NumeroLogicの自然言語モデリングへの適用性を実証し,MMLUベンチマークにおける言語理解性能を改善した。
関連論文リスト
- Number Cookbook: Number Understanding of Language Models and How to Improve It [63.9542740221096]
大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。
本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
論文 参考訳(メタデータ) (2024-11-06T08:59:44Z) - Language Models Encode Numbers Using Digit Representations in Base 10 [12.913172023910203]
大規模言語モデル (LLM) は, 1桁あたりの個々の円周表現を持つ数値を内在的に表現することを示す。
この数値表現は、数値推論を含むタスクにおけるモデルの誤りパターンに光を当てる。
論文 参考訳(メタデータ) (2024-10-15T17:00:15Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - xVal: A Continuous Number Encoding for Large Language Models [42.19323262199993]
一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。
我々は,いくつかの合成および実世界のデータセットに対する提案を実証的に評価した。
論文 参考訳(メタデータ) (2023-10-04T17:26:16Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。