論文の概要: VerityMath: Advancing Mathematical Reasoning by Self-Verification
Through Unit Consistency
- arxiv url: http://arxiv.org/abs/2311.07172v1
- Date: Mon, 13 Nov 2023 09:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:01:08.168560
- Title: VerityMath: Advancing Mathematical Reasoning by Self-Verification
Through Unit Consistency
- Title(参考訳): VerityMath: ユニット一貫性による自己検証による数学的推論の促進
- Authors: Vernon Toh, Ratish Puduppully, Nancy F. Chen
- Abstract要約: 算術語問題に適用した場合のCode Llama (7B) の出力を解析する。
各量について単位を定義することで体系的なアプローチを提案する。
私たちは、VerityMathを生成するために、UCPでCode Llama (7B)モデルを微調整します。
- 参考スコア(独自算出の注目度): 37.94309229887419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) combined with program-based solving techniques
are increasingly demonstrating proficiency in mathematical reasoning. However,
such progress is mostly demonstrated in closed-source models such as
OpenAI-GPT4 and Claude. In this paper, we seek to study the performance of
strong open-source LLMs. Specifically, we analyze the outputs of Code Llama
(7B) when applied to math word problems. We identify a category of problems
that pose a challenge for the model, particularly those involving quantities
that span multiple types or units. To address this issue, we propose a
systematic approach by defining units for each quantity and ensuring the
consistency of these units during mathematical operations. We developed Unit
Consistency Programs (UCPs), an annotated dataset of math word problems, each
paired with programs that contain unit specifications and unit verification
routines. Finally, we finetune the Code Llama (7B) model with UCPs to produce
VerityMath and present our preliminary findings.
- Abstract(参考訳): 大規模言語モデル(llm)とプログラムベースの解法を組み合わせることで、数学的推論における熟練度が高まっている。
しかし、この進歩はOpenAI-GPT4やClaudeのようなクローズドソースモデルで主に実証されている。
本稿では,強力なオープンソース LLM の性能について検討する。
具体的には,算術語問題に適用した場合のCode Llama (7B) の出力を分析する。
モデルにとって課題となる問題のカテゴリ、特に複数のタイプや単位にまたがる量に関するカテゴリを特定します。
この問題に対処するため,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単位整合性プログラム (UCPs) は, 単位仕様と単位検証ルーチンを含むプログラムと組み合わせた, 数学語問題の注釈付きデータセットである。
最後に, Code Llama (7B) モデルを UCP で微調整し, VerityMath を作成した。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Machine Learning Augmented Branch and Bound for Mixed Integer Linear
Programming [11.293025183996832]
Mixed Linear Programming (MILP)は、幅広いアプリケーションに対して強力なモデリング言語を提供する。
近年,ブランチ・アンド・バウンドアルゴリズムに関わる主要なタスクをすべて強化するための機械学習アルゴリズムの利用が爆発的な発展を遂げている。
特に、分岐とバウンドの効率の指標を自動的に最適化する機械学習アルゴリズムに注意を払っている。
論文 参考訳(メタデータ) (2024-02-08T09:19:26Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities [29.06174003306662]
概念とHint-Annotated Math Problems (CHAMP) は、高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Solving Math Word Problems by Combining Language Models With Symbolic
Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。
本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文 参考訳(メタデータ) (2023-04-16T04:16:06Z) - Highlighting Named Entities in Input for Auto-Formulation of
Optimization Problems [0.0]
本稿では,線形プログラム語問題を数学的定式化に変換する手法を提案する。
入力に名前付きエンティティを活用し、これらのエンティティをハイライトするためにインプットを拡張します。
提案手法は,NL4Optコンペティションへの応募者の中で最も高い精度を実現し,生成トラックにおける第1位を確保した。
論文 参考訳(メタデータ) (2022-12-26T16:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。