論文の概要: Error-Driven Prompt Optimization for Arithmetic Reasoning
- arxiv url: http://arxiv.org/abs/2512.13323v1
- Date: Mon, 15 Dec 2025 13:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.67848
- Title: Error-Driven Prompt Optimization for Arithmetic Reasoning
- Title(参考訳): 算数推論のための誤り駆動型プロンプト最適化
- Authors: Árpád Pándy, Róbert Lakatos, András Hajdu,
- Abstract要約: コード生成エージェント(CGA)を強化する算術推論のための誤り駆動最適化フレームワークを提案する。
基本モデルは算術的タスクの基本的な制限を示すが,誤予測をクラスタ化する誤差駆動方式は性能を劇的に向上させる。
我々の結果は、信頼性、解釈可能、産業的に展開可能なAIアシスタントの開発は、コストのかかる微調整だけでなく、体系的なエラー駆動型プロンプト最適化によっても達成可能であることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in artificial intelligence have sparked interest in industrial agents capable of supporting analysts in regulated sectors, such as finance and healthcare, within tabular data workflows. A key capability for such systems is performing accurate arithmetic operations on structured data while ensuring sensitive information never leaves secure, on-premises environments. Here, we introduce an error-driven optimization framework for arithmetic reasoning that enhances a Code Generation Agent (CGA), specifically applied to on-premises small language models (SLMs). Through a systematic evaluation of a leading SLM (Qwen3 4B), we find that while the base model exhibits fundamental limitations in arithmetic tasks, our proposed error-driven method, which clusters erroneous predictions to refine prompt-rules iteratively, dramatically improves performance, elevating the model's accuracy to 70.8\%. Our results suggest that developing reliable, interpretable, and industrially deployable AI assistants can be achieved not only through costly fine-tuning but also via systematic, error-driven prompt optimization, enabling small models to surpass larger language models (GPT-3.5 Turbo) in a privacy-compliant manner.
- Abstract(参考訳): 人工知能の最近の進歩は、表形式のデータワークフローの中で金融や医療などの規制分野のアナリストを支援することができる産業エージェントへの関心を喚起している。
このようなシステムにとって重要な機能は、構造化されたデータに対して正確な算術演算を行うと同時に、機密情報が安全なオンプレミス環境を決して残さないことを保証することである。
本稿では,CGA(Code Generation Agent)を強化し,特にオンプレミスのSLM(Small Language Model)に適用可能な,算術的推論のためのエラー駆動最適化フレームワークを提案する。
先行するSLM (Qwen3 4B) の体系的評価により, 基本モデルが算術的タスクの基本的な限界を示す一方で, 提案手法では, クラスタが即時ルールを反復的に洗練するための誤予測を行い, 性能を劇的に改善し, モデルの精度を70.8\%に向上する。
以上の結果から,信頼性,解釈可能,産業的に展開可能なAIアシスタントの開発は,コストのかかる微調整だけでなく,システム的,エラー駆動的なプロンプト最適化によって実現可能であることが示唆された。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Learning from Generalization Patterns: An Evaluation-Driven Approach to Enhanced Data Augmentation for Fine-Tuning Small Language Models [16.470481192733676]
PaDA-Agentは、SLMのデータ拡張プロセスを合理化する評価駆動型アプローチである。
実験結果から,Llama 3.2 1Bインストラクトモデルファインタニングのための,最先端のLCMベースのデータ拡張手法に対する顕著な改善が示された。
論文 参考訳(メタデータ) (2025-10-20T22:36:46Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - Locally Adaptive Conformal Inference for Operator Models [5.78532405664684]
演算子モデルに対して関数値の局所適応予測セットを生成するための分散フリーフレームワークであるLocal Sliced Conformal Inference (LSCI)を紹介する。
我々は有限サンプルの有効性を証明し、局所交換性の下でのカバレッジギャップにデータ依存の上限を導出する。
偏りのある予測や分布外雑音に対する空間を実証的に実証する。
論文 参考訳(メタデータ) (2025-07-28T16:37:56Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Interpretable AI-based Large-scale 3D Pathloss Prediction Model for
enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。
予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-01-30T19:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。