Fugu-MT 論文翻訳(概要): OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step

論文の概要: OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step

arxiv url: http://arxiv.org/abs/2406.06576v3
Date: Sat, 29 Jun 2024 19:13:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 13:30:57.266795
Title: OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step
Title（参考訳）: OccamLLM: 高速かつエクササイズな言語モデル
Authors: Owen Dugan, Donato Manuel Jimenez Beneto, Charlotte Loh, Zhuo Chen, Rumen Dangovski, Marin Soljačić,
Abstract要約: 大規模言語モデル(LLM)は、複雑な算術演算を正確に実行する上で、依然として課題に直面している。本研究では,テキスト単一自動回帰ステップの正確な演算を可能にするフレームワークを提案し,より高速でセキュアで解釈可能なLLMシステムを実現する。
参考スコア（独自算出の注目度）: 7.7168728919692855
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. To achieve accurate calculations, language model systems often enable LLMs to generate code for arithmetic operations. However, this approach compromises speed and security and, if finetuning is involved, risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in \textit{a single autoregressive step}, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of an LLM to control a symbolic architecture which performs arithmetic. Our implementation using Llama 3 8B Instruct with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o and on par with GPT 4o using a code interpreter. OccamLlama also outperforms GPT 4o both with and without a code interpreter on mathematical problem solving benchmarks involving challenging arithmetic, thus enabling small LLMs to match the arithmetic performance of even much larger models. We will make our code public shortly.
Abstract（参考訳）: テキスト生成と推論の大幅な進歩にもかかわらず、Large Language Models (LLM) は複雑な算術演算を正確に実行する際の課題に直面している。正確な計算を実現するために、言語モデルシステムはしばしばLLMが算術演算のためのコードを生成することができる。しかし、このアプローチはスピードとセキュリティを損なうため、微調整が関与すれば、言語モデルが以前の能力を失うリスクがある。本稿では,より高速で,よりセキュアで,より解釈可能なLLMシステムを実現するためのフレームワークを提案する。我々は,LLMの隠れ状態を用いて,演算を行う記号的アーキテクチャを制御する。シンボリックモデル(OccamLlama)としてOccamNetを用いたLlama 3 8Bのインストラクションは、単一の算術演算(+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$)で100\%の精度を実現し、GPT 4oを上回り、コードインタプリタを使用してGPT 4oと同等の精度を実現した。 OccamLlamaは、計算に挑戦するベンチマークを含む数学的な問題を解くためのコードインタプリタでGPT 4oより優れており、小さなLLMはより大きなモデルの算術的性能に匹敵する。私たちはすぐにコードを公開します。

関連論文リスト

Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently [17.525220958618988]
Integrated Gated Calculator (IGC)は,GPU上で計算器をエミュレートすることで,大規模言語モデルが演算を行うことを可能にするモジュールである。モジュールでLlamaモデルを微調整し、BigBench Arithmeticベンチマークでテストします。当社のアプローチでは,実行に1回のイテレーションしか必要とせず,外部ツールも必要ありません。
論文参考訳（メタデータ） (2025-01-01T00:01:27Z)
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [3.181878085746691]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。本稿では,emphCommutativity やemphIdentity などの代数的構造を捉えることによって,LLM が算術を学習することを提案する。この結果から,代数的構造を活用することでLLMの算術的能力が向上し,算術的性能向上への洞察が得られた。
論文参考訳（メタデータ） (2024-11-25T10:23:11Z)
Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文参考訳（メタデータ） (2024-10-10T13:23:49Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
How well do Large Language Models perform in Arithmetic tasks? [25.638682874990206]
数学の単語問題に段階的に答えるチェーンオブ思考を含む、大きな言語モデルが出現した。我々の知る限りでは、大規模言語モデルの算術能力を評価することに注力する作業はない。本研究では,最新の大規模言語モデルをテストするための算術データセットMATH 401を提案する。
論文参考訳（メタデータ） (2023-03-16T09:28:15Z)
MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文参考訳（メタデータ） (2023-03-04T04:43:49Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。