Fugu-MT 論文翻訳(概要): Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

論文の概要: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

arxiv url: http://arxiv.org/abs/2305.15074v1
Date: Wed, 24 May 2023 11:55:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 16:05:36.637193
Title: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models
Title（参考訳）: LLMは十分に進歩したか? 大規模言語モデルのベンチマークを解く問題
Authors: Daman Arora, Himanshu Gaurav Singh, Mausam
Abstract要約: 大規模言語モデル(LLM)の問題解決能力を評価するための挑戦的ベンチマークデータセットを提案する。 IIT-Advanced 試験から,450の難解な数学,物理,化学の問題を評価した。 GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。
参考スコア（独自算出の注目度）: 13.98051751713916
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The performance on Large Language Models (LLMs) on existing reasoning benchmarks has shot up considerably over the past years. In response, we present JEEBench, a considerably more challenging benchmark dataset for evaluating the problem solving abilities of LLMs. We curate 450 challenging pre-engineering mathematics, physics and chemistry problems from the IIT JEE-Advanced exam. Long-horizon reasoning on top of deep in-domain knowledge is essential for solving problems in this benchmark. Our evaluation on the GPT series of models reveals that although performance improves with newer models, the best being GPT-4, the highest performance, even after using techniques like Self-Consistency and Chain-of-Thought prompting is less than 40 percent. Our analysis demonstrates that errors in algebraic manipulation and failure in retrieving relevant domain specific concepts are primary contributors to GPT4's low performance. Given the challenging nature of the benchmark, we hope that it can guide future research in problem solving using LLMs. Our code and dataset is available here.
Abstract（参考訳）: 既存の推論ベンチマークにおけるLLM(Large Language Models)のパフォーマンスは、ここ数年で大幅に向上した。これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。我々は, IIT JEE-Advanced 試験から, 数学, 物理, 化学の課題を450点評価した。このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。 GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。本分析は,GPT4の低性能に対する主要な寄与要因として,代数的操作の誤りと関連ドメイン固有概念の検索の失敗が示されている。ベンチマークの難易度を考えると、LSMを用いた問題解決における今後の研究をガイドできることを願っている。コードとデータセットはここにある。

関連論文リスト

WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-08-02T07:45:12Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文参考訳（メタデータ） (2024-09-26T15:47:42Z)
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? [11.858791083851447]
WE-MATHは、エンド・ツー・エンドのパフォーマンスを超えた問題解決の原則を探求するために設計された最初のベンチマークである。我々は67の階層的な知識概念と5層の知識の粒度にまたがる6.5Kの視覚数学の問題を慎重に収集・分類する。視覚数学的推論において既存のLMMを徹底的に評価し、解法ステップと問題固有の性能との負の相関を明らかにする。
論文参考訳（メタデータ） (2024-07-01T13:39:08Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。 GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文参考訳（メタデータ） (2024-04-16T23:27:38Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。 1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文参考訳（メタデータ） (2024-02-19T07:15:59Z)
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文参考訳（メタデータ） (2024-01-13T03:18:16Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。