論文の概要: What Makes Math Word Problems Challenging for LLMs?
- arxiv url: http://arxiv.org/abs/2403.11369v2
- Date: Mon, 1 Apr 2024 13:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:08:50.865426
- Title: What Makes Math Word Problems Challenging for LLMs?
- Title(参考訳): LLMの数学用語問題とは何なのか?
- Authors: KV Aditya Srivatsa, Ekaterina Kochmar,
- Abstract要約: 数学語問題(MWP)の重要な言語的・数学的特徴を詳細に分析する。
大型言語モデル(LLM)におけるMWPの全体的な難しさに対する各特徴の影響をよりよく理解するために、特徴ベースの分類器を訓練する。
- 参考スコア(独自算出の注目度): 5.153388971862429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the question of what makes math word problems (MWPs) in English challenging for large language models (LLMs). We conduct an in-depth analysis of the key linguistic and mathematical characteristics of MWPs. In addition, we train feature-based classifiers to better understand the impact of each feature on the overall difficulty of MWPs for prominent LLMs and investigate whether this helps predict how well LLMs fare against specific categories of MWPs.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) に挑戦する英語の数学語問題 (MWP) について考察する。
MWPの重要な言語的特徴と数学的特徴を詳細に分析する。
さらに、特徴に基づく分類器を訓練し、各特徴がMWPの難易度全体に与える影響をよりよく理解し、それがMWPの特定のカテゴリに対するLLMの精度予測に役立つかどうかを検討する。
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - MWPRanker: An Expression Similarity Based Math Word Problem Retriever [12.638925774492403]
オンラインアセスメントにおける数学語問題(MWP)は、学習者が重要な推論を行う能力をテストするのに役立つ。
本稿では,MWP検索のためのツールを提案する。
論文 参考訳(メタデータ) (2023-07-03T15:44:18Z) - Analogical Math Word Problems Solving with Enhanced Problem-Solution
Association [37.70402758178867]
本稿では,アナログMWPを利用した新しいMWP解法を提案する。
アナロジー同定と呼ばれる鍵となるアイデアは、アナログMWP対を潜在空間で関連付けることである。
解判別器はMWPソルバに統合され、MWPの表現と真の解との関連性を高める。
論文 参考訳(メタデータ) (2022-12-01T19:50:30Z) - MWP-BERT: A Strong Baseline for Math Word Problems [47.51572465676904]
数学語問題(英: Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。
近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。
我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
論文 参考訳(メタデータ) (2021-07-28T15:28:41Z) - A Diverse Corpus for Evaluating and Developing English Math Word Problem
Solvers [10.244215079409797]
本稿では,多種多様(言語パターンと問題型の両方)の英算語問題 (MWP) コーパスについて述べる。
AIの進歩を研究するための既存のMWPコーパスは、言語の使用パターンや問題タイプに制限されている。
そこで本研究では,2,305 MWP を用いた英語 MWP コーパスを提案する。
論文 参考訳(メタデータ) (2021-06-30T01:54:11Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。