Fugu-MT 論文翻訳(概要): Give me a hint: Can LLMs take a hint to solve math problems?

論文の概要: Give me a hint: Can LLMs take a hint to solve math problems?

arxiv url: http://arxiv.org/abs/2410.05915v2
Date: Sat, 09 Nov 2024 08:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.245599
Title: Give me a hint: Can LLMs take a hint to solve math problems?
Title（参考訳）: ヒントをください: LLMは数学の問題を解決するヒントをもらえますか?
Authors: Vansh Agrawal, Pratham Singla, Amitoj Singh Miglani, Shivank Garg, Ayush Mangal,
Abstract要約: 本稿では,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。また、敵のヒントに対する堅牢性をテストし、それらに対する感受性を示す。
参考スコア（独自算出の注目度）: 0.5742190785269342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While state-of-the-art LLMs have shown poor logical and basic mathematical reasoning, recent works try to improve their problem-solving abilities using prompting techniques. We propose giving "hints" to improve the language model's performance on advanced mathematical problems, taking inspiration from how humans approach math pedagogically. We also test robustness to adversarial hints and demonstrate their sensitivity to them. We demonstrate the effectiveness of our approach by evaluating various diverse LLMs, presenting them with a broad set of problems of different difficulties and topics from the MATH dataset and comparing against techniques such as one-shot, few-shot, and chain of thought prompting.
Abstract（参考訳）: 最先端のLLMは、論理的および基礎的な数学的推論に乏しいが、最近の研究は、プロンプト技術を用いて問題解決能力を改善しようとしている。我々は,人間が数学的にどのようにアプローチするかから着想を得て,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。また、敵のヒントに対する堅牢性をテストし、それらに対する感受性を示す。我々は,多種多様なLSMを評価し,MATHデータセットの難易度とトピックの多種多様な問題と,ワンショット,少数ショット,思考の連鎖といった手法との比較を行った。

関連論文リスト

Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems [36.45822358679126]
本稿では,音声ベースモデルの数学的推論能力を評価するための新しいベンチマークである,Spoken-MQA(Spken Math Question Answering)を紹介する。 Spoken-MQAは、純粋算術、単段階および多段階の文脈推論、知識指向推論問題など、多種多様な数学問題をカバーしている。基本算術を含む文脈的推論タスクにおいて、LLMが競合的に機能する言語もあるが、直接算術問題に苦戦している。
論文参考訳（メタデータ） (2025-05-21T01:07:00Z)
MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。 FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文参考訳（メタデータ） (2024-03-12T15:32:39Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
MathAttack: Attacking Large Language Models Towards Math Solving Ability [29.887497854000276]
本稿では,数学問題の解法におけるセキュリティの本質に近いMWPサンプルを攻撃するためのMathAttackモデルを提案する。攻撃中は、元のMWPの数学的論理を保存することが不可欠である。 RobustMathと別の2つの数学ベンチマークGSM8KとMultiAirthデータセットの大規模な実験は、MathAttackがLLMの数学問題解決能力を効果的に攻撃できることを示している。
論文参考訳（メタデータ） (2023-09-04T16:02:23Z)
MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文参考訳（メタデータ） (2023-03-04T04:43:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。