論文の概要: OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step
- arxiv url: http://arxiv.org/abs/2406.06576v4
- Date: Tue, 3 Sep 2024 02:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 17:51:09.112089
- Title: OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step
- Title(参考訳): OccamLLM: 高速かつエクササイズな言語モデル
- Authors: Owen Dugan, Donato Manuel Jimenez Beneto, Charlotte Loh, Zhuo Chen, Rumen Dangovski, Marin Soljačić,
- Abstract要約: 本稿では,1つの自己回帰的なステップで正確な算術を可能にするフレームワークを提案する。
我々は LLM の隠蔽状態を用いて演算を行う記号的アーキテクチャを制御する。
シンボルモデル(OccamLlama)としてOccamNetを用いたLlama 3の実装は,1つの算術演算において100%の精度を実現する。
- 参考スコア(独自算出の注目度): 7.7168728919692855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. Language model systems often enable LLMs to generate code for arithmetic operations to achieve accurate calculations. However, this approach compromises speed and security, and fine-tuning risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in a single autoregressive step, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of a LLM to control a symbolic architecture that performs arithmetic. Our implementation using Llama 3 with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o with and without a code interpreter. Furthermore, OccamLlama outperforms GPT 4o with and without a code interpreter on average across a range of mathematical problem solving benchmarks, demonstrating that OccamLLMs can excel in arithmetic tasks, even surpassing much larger models. We will make our code public shortly.
- Abstract(参考訳): テキスト生成と推論の大幅な進歩にもかかわらず、Large Language Models (LLM) は複雑な算術演算を正確に実行する際の課題に直面している。
言語モデルシステムでは、LLMが算術演算のためのコードを生成して正確な計算をすることができる。
しかし、このアプローチはスピードとセキュリティを損なうため、微調整は言語モデルが事前の能力を失うリスクを負う。
本研究では,1つの自己回帰ステップで正確な算術を実現できるフレームワークを提案し,より高速で,よりセキュアで,より解釈可能なLLMシステムを実現する。
我々は LLM の隠蔽状態を用いて演算を行う記号的アーキテクチャを制御する。
シンボリックモデル(OccamLlama)としてOccamNetを用いたLlama 3の実装は、単算術演算(+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$)において100\%の精度を実現し、GPT 4oをコードインタープリタなしで上回ります。
さらに、OccamLlamaはGPT 4oよりもパフォーマンスが優れており、多くの数学的な問題解決ベンチマークでコードインタプリタを平均で使用し、OccamLLMsが算術的なタスクに優れ、はるかに大きなモデルを超えていることを実証している。
私たちはすぐにコードを公開します。
関連論文リスト
- Arithmetic Reasoning with LLM: Prolog Generation & Permutation [2.1867261071129125]
GSM8Kベンチマークでは,Prologに基づく算術的問題解決がCoT生成に優れていることが示されている。
我々は、データ拡張によるより堅牢なLCMトレーニングのための基礎的真理予測をパーミュレートすることを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:13:25Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - How well do Large Language Models perform in Arithmetic tasks? [25.638682874990206]
数学の単語問題に段階的に答えるチェーンオブ思考を含む、大きな言語モデルが出現した。
我々の知る限りでは、大規模言語モデルの算術能力を評価することに注力する作業はない。
本研究では,最新の大規模言語モデルをテストするための算術データセットMATH 401を提案する。
論文 参考訳(メタデータ) (2023-03-16T09:28:15Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。