論文の概要: Formula-One Prompting: Adaptive Reasoning Through Equations For Applied Mathematics
- arxiv url: http://arxiv.org/abs/2601.19302v1
- Date: Tue, 27 Jan 2026 07:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.228273
- Title: Formula-One Prompting: Adaptive Reasoning Through Equations For Applied Mathematics
- Title(参考訳): フォーミュラ・ワン・プロンプティング:応用数学の方程式による適応的推論
- Authors: Natapong Nitarach, Pittawat Taveekitworachai, Kunat Pipatanakul,
- Abstract要約: フォーミュラ・ワン・プロンプティング (F-1) は、数学方程式を適応解の前に中間表現として用いる2相アプローチである。
応用数学問題において, F-1 は Chain-of-Thought (CoT) と Program-of-Thought (PoT) より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.459207567677249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting techniques such as Chain-of-Thought (CoT) and Program-of-Thought (PoT) improve LLM mathematical reasoning by structuring intermediate steps in natural language or code. However, applied mathematics problems in domains like finance, physics, and cryptography often require recalling or deriving governing equations, a step that current approaches do not explicitly leverage. We propose Formula-One Prompting (F-1), a two-phase approach that uses mathematical equations as an intermediate representation before adaptive solving. F-1 first formulates governing equations from problem descriptions, then selects a solving strategy among CoT, PoT, or direct computation based on the generated equations, all within a single LLM call. Results across five models and four benchmarks show F-1 outperforms CoT by +5.76% and PoT by +8.42% on average. Crucially, gains are largest in applied domains: +13.30% on FinanceMath over CoT, and within OlympiadBench, larger gains on physics (+2.55%) than pure math (+0.44%). This demonstrates that F-1 is more effective than CoT in applied mathematics problems.
- Abstract(参考訳): CoT(Chain-of-Thought)やPoT(Program-of-Thought)といったプロンプト技術は、自然言語やコードの中間ステップを構造化することで、LCMの数学的推論を改善する。
しかしながら、金融、物理学、暗号といった分野における応用数学の問題は、しばしば、現在のアプローチが明示的に活用しないステップである、支配方程式のリコールや導出を必要とする。
適応解の前に数学方程式を中間表現として用いる2相法であるF-1(Fulaly-One Prompting)を提案する。
F-1はまず問題記述から方程式を定式化し、その後、生成した方程式に基づいてCoT、PoT、あるいは直接計算の解法を選択する。
5つのモデルと4つのベンチマークの結果、F-1はCoTを+5.76%、PoTを+8.42%上回った。
また、OlympiadBenchでは純数学(+0.44%)よりも物理学(+2.55%)の方が大きい。
これにより、F-1 は応用数学問題において CoT よりも効果的であることが示される。
関連論文リスト
- WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning [51.13280433665446]
大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2025-09-27T09:58:03Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。
TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文 参考訳(メタデータ) (2023-05-21T17:51:35Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。