論文の概要: Math Natural Language Inference: this should be easy!
- arxiv url: http://arxiv.org/abs/2507.23063v1
- Date: Wed, 30 Jul 2025 19:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.626148
- Title: Math Natural Language Inference: this should be easy!
- Title(参考訳): Math Natural Language Inference: これは簡単であるべきです!
- Authors: Valeria de Paiva, Qiyue Gao, Hai Hu, Pavel Kovalev, Yikang Liu, Lawrence S. Moss, Zhiheng Qian,
- Abstract要約: 我々は,現代LLMが数学的テキスト上で自然言語推論タスクを実行できるかどうかを問う。
我々は、既存の数学的テキストから前提となるMath NLIペアのコーパスを構築する。
また,LLM自体による仮説を前提としたコーパスの品質についても検討した。
- 参考スコア(独自算出の注目度): 8.87707029083704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We ask whether contemporary LLMs are able to perform natural language inference (NLI) tasks on mathematical texts. We call this the Math NLI problem. We construct a corpus of Math NLI pairs whose premises are from extant mathematical text and whose hypotheses and gold labels were provided by people with experience in both research-level mathematics and also in the NLI field. We also investigate the quality of corpora using the same premises but whose hypotheses are provided by LLMs themselves. We not only investigate the performance but also the inter-group consistency of the diverse group of LLMs. We have both positive and negative findings. Among our positive findings: in some settings, using a majority vote of LLMs is approximately equivalent to using human-labeled data in the Math NLI area. On the negative side: LLMs still struggle with mathematical language. They occasionally fail at even basic inferences. Current models are not as prone to hypothesis-only "inference" in our data the way the previous generation had been. In addition to our findings, we also provide our corpora as data to support future work on Math NLI.
- Abstract(参考訳): 我々は,現代LLMが数学的テキスト上で自然言語推論(NLI)タスクを実行できるかどうかを問う。
これをMath NLI問題と呼ぶ。
研究レベルの数学とNLI分野の両方の経験を持つ人々によって仮説と金のラベルが提供された、現存する数学テキストから前提となる数学NLIペアのコーパスを構築した。
また,LLM自体による仮説を前提としたコーパスの品質についても検討した。
我々は,LLMの性能だけでなく,多種多様なグループ間の整合性についても検討する。
陽性と陰性の両方の所見がある。
肯定的な結果として, 一部の設定では, LLM の過半数を使用すれば,Math NLI 領域における人間のラベル付きデータとほぼ同等である。
負の面: LLMは依然として数学言語に苦戦している。
時に基本的な推論でも失敗する。
現在のモデルは、以前の世代がそうであったように、データの中で仮説のみの"推論"をする傾向がある。
また,本研究の成果に加えて,今後のMath NLIの開発を支援するために,コーパスをデータとして提供する。
関連論文リスト
- DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - Large Language Models: An Applied Econometric Framework [1.348318541691744]
我々はこの問題に答えるための計量的枠組みを開発する。
LLMのトレーニングデータセットと研究者のサンプルの間に「漏れがない」という条件下では、予測問題にLLMを使用することは有効である。
これらの要件は厳密であり、それらが破られると、LLMの制限は信頼できない経験的推定をもたらす。
論文 参考訳(メタデータ) (2024-12-09T22:37:48Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。