論文の概要: Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval
- arxiv url: http://arxiv.org/abs/2411.16454v1
- Date: Mon, 25 Nov 2024 15:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:40.964355
- Title: Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval
- Title(参考訳): アナロジーによる学習:計算グラフに基づく検索を用いた数学語問題解決のためのFew-Shot Promptingの強化
- Authors: Xiaocong Yang, Jiacheng Lin, Ziqi Wang, Chengxiang Zhai,
- Abstract要約: 同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。
具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。
6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 22.865124583257987
- License:
- Abstract: Large language models (LLMs) are known to struggle with complicated reasoning tasks such as math word problems (MWPs). In this paper, we present how analogy from similarly structured questions can improve LLMs' problem-solving capabilities for MWPs. Specifically, we rely on the retrieval of problems with similar computational graphs to the given question to serve as exemplars in the prompt, providing the correct reasoning path for the generation model to refer to. Empirical results across six math word problem datasets demonstrate the effectiveness of our proposed method, which achieves a significant improvement of up to 6.7 percent on average in absolute value, compared to baseline methods. These results highlight our method's potential in addressing the reasoning challenges in current LLMs.
- Abstract(参考訳): 大規模言語モデル (LLMs) は数学語問題 (MWPs) のような複雑な推論課題に苦しむことが知られている。
本稿では,MWPにおけるLLMの問題解決能力の向上について述べる。
具体的には、与えられた問題に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの例示として機能し、生成モデルが参照する正しい推論経路を提供する。
6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示され,ベースライン法と比較して絶対値の平均6.7%の大幅な改善が達成された。
これらの結果は,現在のLLMにおける推論問題に対処する上での本手法の可能性を明らかにするものである。
関連論文リスト
- Improving Math Problem Solving in Large Language Models Through Categorization and Strategy Tailoring [0.0]
問題分類のための機械学習モデルを開発し、よく設計されたトレーニングデータセットを作成することにより、その精度を著しく向上させることができることを示す。
LLMの幻覚を減らし、高度な数学的問題に対処する可能性を解き放つための重要なステップである。
論文 参考訳(メタデータ) (2024-10-29T16:06:26Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Data Augmentation with In-Context Learning and Comparative Evaluation in Math Word Problem Solving [0.0]
本研究の目的は,MWPソルバにより多様なトレーニングセットを提供することであり,最終的には様々な数学問題を解く能力を向上させることである。
本稿では,同義語置換法,ルールベース:質問置換法,ルールベース:質問方法論を逆転させるような問題テキストや方程式を変更することで,データ拡張のためのいくつかの手法を提案する。
本研究は,Llama-7b言語モデルを用いて,新しい文脈内学習拡張手法を導入することで拡張する。
論文 参考訳(メタデータ) (2024-04-05T07:57:03Z) - From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。
提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。
Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-21T13:29:54Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency [33.760209585322606]
プログラムベースの解法を用いて,数学語問題に対する強力なオープンソースLLMの性能について検討する。
本稿では,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単体一貫性を取り入れた我々のアプローチは、現在、そうでないアプローチに比べてわずかに性能が劣っている。
論文 参考訳(メタデータ) (2023-11-13T09:06:58Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。