論文の概要: Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks
- arxiv url: http://arxiv.org/abs/2406.02356v1
- Date: Tue, 4 Jun 2024 14:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:50:54.780938
- Title: Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks
- Title(参考訳): 言語モデルは難解な算術的タスクを容易かつ難解に行う
- Authors: Andrew Gambardella, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 大規模言語モデル(LLM)はm桁乗算タスクによってn桁の最初の桁を正確かつ確実に予測することができる。
実際には LLM は m-digit 乗算によって n-digit の最後の桁を正しくあるいは確実に予測できないことが多い。
LLMが正しい高次桁の全てに条件付けされている場合、後者のタスクはより堅牢に解決できることを示す。
- 参考スコア(独自算出の注目度): 27.020990219204343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability (and inability) of large language models (LLMs) to perform arithmetic tasks has been the subject of much theoretical and practical debate. We show that LLMs are frequently able to correctly and confidently predict the first digit of n-digit by m-digit multiplication tasks without using chain of thought reasoning, despite these tasks require compounding operations to solve. Simultaneously, LLMs in practice often fail to correctly or confidently predict the last digit of an n-digit by m-digit multiplication, a task equivalent to 1-digit by 1-digit multiplication which can be easily learned or memorized. We show that the latter task can be solved more robustly when the LLM is conditioned on all of the correct higher-order digits, which on average increases the confidence of the correct last digit on 5-digit by 5-digit multiplication tasks using Llama 2-13B by over 230% (0.13 to 0.43) and Mistral-7B by 150% (0.22 to 0.55).
- Abstract(参考訳): 算術的なタスクを実行する大きな言語モデル(LLM)の能力(および機能不全)は、理論的および実践的な議論の対象となっている。
LLMは、複雑な処理を必要とするにもかかわらず、思考推論の連鎖を使わずに、m桁乗算タスクによってn桁の最初の桁を正しくかつ確実に予測できることがよく示される。
同時に、実際にLLMはm桁の乗算によってn桁の最後の桁を正しくまたは確実に予測することができず、1桁の乗算で1桁に相当するタスクを学習または記憶しやすくする。
その結果,Llama 2-13B を 230% (0.13 から 0.43 ) 以上,Mistral-7B を 150% (0.22 から 0.55 ) 以上とすることで,LLM が 5 桁の最終桁の信頼度を平均5桁に高めれば,後者のタスクはより堅牢に解決できることを示した。
関連論文リスト
- Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks [5.522116934552708]
大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [86.03285157412839]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Solving the multiplication problem of a large language model system
using a graph-based method [20.43440908151311]
ChatGPTには優れた自然言語処理能力があるが、算術問題を解くには不十分である。
我々は,人間のような数値演算をエミュレートするグラフベースの乗算アルゴリズムを開発した。
提案アルゴリズムは,1000,000個の乗算タスクに対して100%精度が得られた。
論文 参考訳(メタデータ) (2023-10-18T08:02:00Z) - GPT Can Solve Mathematical Problems Without a Calculator [24.114064917059565]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。
また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文 参考訳(メタデータ) (2023-09-06T06:18:16Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。