論文の概要: Stuck in the Quicksand of Numeracy, Far from AGI Summit: Evaluating
LLMs' Mathematical Competency through Ontology-guided Perturbations
- arxiv url: http://arxiv.org/abs/2401.09395v1
- Date: Wed, 17 Jan 2024 18:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:00:28.191574
- Title: Stuck in the Quicksand of Numeracy, Far from AGI Summit: Evaluating
LLMs' Mathematical Competency through Ontology-guided Perturbations
- Title(参考訳): AGI Summitから遠く離れた「数理のクイックサンド」に見る--オントロジー誘導摂動によるLLMの数学的能力の評価
- Authors: Pengfei Hong, Deepanway Ghosal, Navonil Majumder, Somak Aditya, Rada
Mihalcea, Soujanya Poria
- Abstract要約: 大規模言語モデル(LLM)は、既存の論理推論ベンチマークで顕著な結果を示した。
しかし、数学的推論のタスクにおいて、彼らの能力と頑健さの真の深さは、未解決の問題のままである。
i) 数学質問の摂動のオントロジー,(ii) 摂動の半自動的方法,(iii) 摂動された数学質問のデータセットを開発する。
- 参考スコア(独自算出の注目度): 50.68293377521595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have showcased striking
results on existing logical reasoning benchmarks, with some models even
surpassing human performance. However, the true depth of their competencies and
robustness, in mathematical reasoning tasks, remains an open question. In
response, we develop (i) an ontology of perturbations of maths questions, (ii)
a semi-automatic method of perturbation, and (iii) a dataset of perturbed maths
questions to probe the limits of LLM capabilities in mathematical reasoning
tasks. These controlled perturbations span across multiple fine dimensions of
the structural and representational aspects of maths questions. Using GPT-4, we
generated the MORE dataset by perturbing randomly selected five seed questions
from GSM8K. This process was guided by our ontology and involved a thorough
automatic and manual filtering process, yielding a set of 216 maths problems.
We conducted comprehensive evaluation of both closed-source and open-source
LLMs on MORE. The results show a significant performance drop across all the
models against the perturbed questions. This strongly suggests that current
LLMs lack robust mathematical skills and deep reasoning abilities. This
research not only identifies multiple gaps in the capabilities of current
models, but also highlights multiple potential directions for future
development. Our dataset will be made publicly available at
https://huggingface.co/datasets/declare-lab/GSM8k_MORE.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、既存の論理的推論ベンチマークにおいて顕著な結果を示しており、一部のモデルは人的性能を超えている。
しかし、数学的な推論タスクにおいて、彼らの能力と強固さの真の深さは、まだ未解決の問題である。
これに応えて、我々は
(i)数学の問題の摂動のオントロジー。
(ii)半自動摂動法、及び
(iii)数学推論タスクにおけるllm能力の限界を調査するための摂動数学問題のデータセット。
これらの制御された摂動は、数学問題の構造的および表現的側面の複数のファイン次元にまたがる。
GPT-4を用いて,GSM8Kからランダムに選択した5つの種質問を摂動することでMOREデータセットを生成した。
このプロセスはオントロジーによってガイドされ、完全な自動および手動によるフィルタリングプロセスが関与し、216の数学問題を生み出した。
我々はMORE上で,オープンソースLLMとオープンソースLLMの総合評価を行った。
結果は、すべてのモデルにおいて、混乱した質問に対する大幅なパフォーマンス低下を示します。
これは、現在のLLMには堅牢な数学的スキルと深い推論能力がないことを強く示唆している。
この研究は、現在のモデルの能力の複数のギャップを識別するだけでなく、将来の発展に向けた複数の潜在的方向性も強調する。
私たちのデータセットはhttps://huggingface.co/datasets/declare-lab/GSM8k_MOREで公開されます。
関連論文リスト
- PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models [27.362012903540492]
因果性は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにする。
大規模言語モデル(LLM)は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、因果関係がそれらの効果に直接影響を与えることを理解することができる。
本稿では,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。