論文の概要: Error Detection and Correction for Interpretable Mathematics in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.03500v1
- Date: Tue, 05 Aug 2025 14:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.015698
- Title: Error Detection and Correction for Interpretable Mathematics in Large Language Models
- Title(参考訳): 大規模言語モデルにおける解釈可能な数学の誤り検出と補正
- Authors: Yijin Yang, Cristina Cornelio, Mario Leiva, Paulo Shakarian,
- Abstract要約: EDCIM (Error Detection and Correction for Interpretable Mathematics) は、解釈可能な数学タスクにおいて、これらの誤りを検出し、修正する手法である。
軽量でオープンソースのLCMとより強力なプロプライエタリなモデルを統合し、コストと精度のバランスをとる。
実験の結果,EDCIMは予測精度を維持しつつも,計算コストと財務コストの両方を著しく削減することがわかった。
- 参考スコア(独自算出の注目度): 5.258949636570995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have demonstrated the ability to perform explicit multi-step reasoning such as chain-of-thought prompting. However, their intermediate steps often contain errors that can propagate leading to inaccurate final predictions. Additionally, LLMs still struggle with hallucinations and often fail to adhere to prescribed output formats, which is particularly problematic for tasks like generating mathematical expressions or source code. This work introduces EDCIM (Error Detection and Correction for Interpretable Mathematics), a method for detecting and correcting these errors in interpretable mathematics tasks, where the model must generate the exact functional form that explicitly solve the problem (expressed in natural language) rather than a black-box solution. EDCIM uses LLMs to generate a system of equations for a given problem, followed by a symbolic error-detection framework that identifies errors and provides targeted feedback for LLM-based correction. To optimize efficiency, EDCIM integrates lightweight, open-source LLMs with more powerful proprietary models, balancing cost and accuracy. This balance is controlled by a single hyperparameter, allowing users to control the trade-off based on their cost and accuracy requirements. Experimental results across different datasets show that EDCIM significantly reduces both computational and financial costs, while maintaining, and even improving, prediction accuracy when the balance is properly configured.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) では、チェーン・オブ・シークレット・プロンプトのような明示的な多段階推論を行う能力が実証されている。
しかし、その中間段階は、しばしば不正確な最終的な予測につながるエラーを含む。
加えて、LLMはいまだ幻覚に悩まされており、しばしば所定の出力形式に従わない。
EDCIM(Error Detection and Correction for Interpretable Mathematics)は、解釈可能な数学タスクにおいてこれらの誤りを検出し、修正する手法である。
EDCIM は LLM を用いて与えられた問題に対する方程式のシステムを生成し、次いで、誤りを識別し、LLM ベースの修正のためにターゲットとなるフィードバックを提供するシンボリックエラー検出フレームワークを使用する。
効率を最適化するために、EDCIMは軽量でオープンソースのLCMをより強力なプロプライエタリなモデルに統合し、コストと精度のバランスをとる。
このバランスは1つのハイパーパラメータによって制御され、ユーザーはコストと精度の要求に基づいてトレードオフを制御することができる。
異なるデータセット間での実験結果から、EDCIMはバランスが適切に設定された場合の予測精度を維持・改善しながら、計算コストと財政コストの両方を著しく削減することが示された。
関連論文リスト
- EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning [66.82956219777763]
大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.803612556616685]
大規模言語モデル(LLM)における誤り検出の力学解析について述べる。
回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。
この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2025-02-17T13:00:44Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。