論文の概要: NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes
- arxiv url: http://arxiv.org/abs/2312.14890v4
- Date: Mon, 12 Feb 2024 17:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:07:07.928463
- Title: NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes
- Title(参考訳): NPHardEval: 複雑性クラスによる大規模言語モデルの推論能力の動的ベンチマーク
- Authors: Lizhou Fan, Wenyue Hua, Lingyao Li, Haoyang Ling, Yongfeng Zhang
- Abstract要約: NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
- 参考スコア(独自算出の注目度): 32.154637177467684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex reasoning ability is one of the most important features of current
LLMs, which has also been leveraged to play an integral role in complex
decision-making tasks. Therefore, the investigation into the reasoning
capabilities of Large Language Models (LLMs) is critical: numerous benchmarks
have been established to assess the reasoning abilities of LLMs. However,
current benchmarks are inadequate in offering a rigorous evaluation of the full
extent of reasoning abilities that LLMs are capable of achieving. They are also
prone to the risk of overfitting, as these benchmarks, being publicly
accessible and static, allow models to potentially tailor their responses to
specific benchmark metrics, thereby inflating their performance. Addressing
these limitations, our research introduces a new benchmark, named NPHardEval.
This benchmark is designed to evaluate the reasoning abilities of LLMs across a
broad spectrum of 900 algorithmic questions, extending up to the NP-Hard
complexity class. These questions are meticulously chosen to represent a wide
range of complexity class below the NP-hard complexity class, offering a
rigorous measure of the reasoning ability of LLMs. Through this study, we shed
light on the current state of reasoning in LLMs, providing an objective and
rigorous perspective through the comparison of LLMs' performance across complex
classes. Moreover, this benchmark is designed with a dynamic update mechanism,
where the datapoints are refreshed on a monthly basis. Such regular updates
play a crucial role in mitigating the risk of LLMs overfitting to the
benchmark, promoting a more accurate and reliable assessment of their reasoning
capabilities. The benchmark dataset and code of NPHardEval are available at
https://github.com/casmlab/NPHardEval.
- Abstract(参考訳): 複雑な推論能力は、現在のLLMの最も重要な特徴の1つであり、複雑な意思決定タスクにおいて重要な役割を果たすために利用されてきた。
したがって,LLMの推論能力を評価するために,大規模言語モデル (LLM) の推論能力に関する多くのベンチマークが確立されている。
しかし、現在のベンチマークはLLMが達成できる推論能力の全範囲を厳格に評価する上で不十分である。
これらのベンチマークは公開アクセス可能で静的であるため、モデルが特定のベンチマークメトリクスに対する応答を調整できる可能性があり、その結果、パフォーマンスが増大する。
これらの制限に対処するため、我々の研究は NPHardEval という新しいベンチマークを導入した。
このベンチマークは、900のアルゴリズム質問の範囲でLLMの推論能力を評価し、NP-Hard複雑性クラスまで拡張するように設計されている。
これらの質問は、NPハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選ばれ、LLMの推論能力の厳密な測度を提供する。
本研究では,LLMにおける推論の現況に光を当て,複雑なクラス間でのLLMの性能の比較を通して,客観的かつ厳密な視点を提供する。
さらに、このベンチマークは動的更新メカニズムで設計されており、データポイントは毎月更新される。
このような定期的な更新は、ベンチマークに過剰に適合するllmのリスクを緩和し、より正確で信頼性の高い推論能力の評価を促進する上で、重要な役割を果たす。
NPHardEvalのベンチマークデータセットとコードはhttps://github.com/casmlab/NPHardEvalで公開されている。
関連論文リスト
- CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models [27.362012903540492]
因果性は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにする。
大規模言語モデル(LLM)は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、因果関係がそれらの効果に直接影響を与えることを理解することができる。
本稿では,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。