論文の概要: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15074v3
- Date: Mon, 23 Oct 2023 11:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 09:10:58.788924
- Title: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- Title(参考訳): LLMは十分に進歩したか?
大規模言語モデルのベンチマークを解く問題
- Authors: Daman Arora, Himanshu Gaurav Singh, Mausam
- Abstract要約: 515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
- 参考スコア(独自算出の注目度): 23.344490944210456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) on existing reasoning
benchmarks has significantly improved over the past years. In response, we
present JEEBench, a considerably more challenging benchmark dataset for
evaluating the problem solving abilities of LLMs. We curate 515 challenging
pre-engineering mathematics, physics and chemistry problems from the highly
competitive IIT JEE-Advanced exam. Long-horizon reasoning on top of deep
in-domain knowledge is essential for solving problems in this benchmark. Our
evaluation on various open-source and proprietary models reveals that the
highest performance, even after using techniques like self-consistency,
self-refinement and chain-of-thought prompting, is less than 40%. The typical
failure modes of GPT-4, the best model, are errors in algebraic manipulation,
difficulty in grounding abstract concepts into mathematical equations
accurately and failure in retrieving relevant domain-specific concepts. We also
observe that by mere prompting, GPT-4 is unable to assess risk introduced by
negative marking for incorrect answers. For this, we develop a post-hoc
confidence-thresholding method over self-consistency, which enables effective
response selection. We hope that our challenging benchmark will guide future
re-search in problem-solving using LLMs.
- Abstract(参考訳): 既存の推論ベンチマークにおける大規模言語モデル(LLM)の性能は、ここ数年で大幅に改善されている。
これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。
競争力の高いIIT JEE-Advanced試験から, 数学, 物理, 化学の課題を515点評価した。
このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己一貫性や自己定義,思考の連鎖といったテクニックを用いた場合においても,最も高いパフォーマンスが40%未満であることが分かりました。
GPT-4の典型的な失敗モードは、代数的操作における誤り、抽象的な概念を数学的方程式に正確に基底付けることの難しさ、関連するドメイン固有の概念の取得の失敗である。
また,GPT-4は誤答に対する負のマーキングによって引き起こされるリスクを評価することができない。
そこで本研究では,自己整合性に対する保温後信頼性保持手法を開発し,効果的な応答選択を実現する。
LLMを用いた問題解決における今後の研究を,我々の挑戦的なベンチマークが導くことを期待します。
関連論文リスト
- Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? [11.858791083851447]
WE-MATHは、エンド・ツー・エンドのパフォーマンスを超えた問題解決の原則を探求するために設計された最初のベンチマークである。
我々は67の階層的な知識概念と5層の知識の粒度にまたがる6.5Kの視覚数学の問題を慎重に収集・分類する。
視覚数学的推論において既存のLMMを徹底的に評価し、解法ステップと問題固有の性能との負の相関を明らかにする。
論文 参考訳(メタデータ) (2024-07-01T13:39:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。