論文の概要: Competition-Level Problems are Effective LLM Evaluators
- arxiv url: http://arxiv.org/abs/2312.02143v3
- Date: Tue, 4 Jun 2024 05:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:47:23.476025
- Title: Competition-Level Problems are Effective LLM Evaluators
- Title(参考訳): LLM評価器の競合レベル問題
- Authors: Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen,
- Abstract要約: 本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
- 参考スコア(独自算出の注目度): 121.15880285283116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning capabilities, yet there is ongoing debate about these abilities and the potential data contamination problem recently. This paper aims to evaluate the reasoning capacities of LLMs, specifically in solving recent competition-level programming problems in Codeforces, which are expert-crafted and unique, requiring deep understanding and robust reasoning skills. We first provide a comprehensive evaluation of GPT-4's peiceived zero-shot performance on this task, considering various aspects such as problems' release time, difficulties, and types of errors encountered. Surprisingly, the peiceived performance of GPT-4 has experienced a cliff like decline in problems after September 2021 consistently across all the difficulties and types of problems, which shows the potential data contamination, as well as the challenges for any existing LLM to solve unseen complex reasoning problems. We further explore various approaches such as fine-tuning, Chain-of-Thought prompting and problem description simplification, unfortunately none of them is able to consistently mitigate the challenges. Through our work, we emphasis the importance of this excellent data source for assessing the genuine reasoning capabilities of LLMs, and foster the development of LLMs with stronger reasoning abilities and better generalization in the future.
- Abstract(参考訳): 大規模言語モデル(LLM)は印象的な推論能力を示してきたが、近年これらの能力と潜在的なデータ汚染問題に関して議論が続いている。
本稿では,LLMの推論能力,特に専門的かつ独特な,深い理解と堅牢な推論能力を必要とするCodeforcesにおける近年の競合レベルプログラミング問題の解決をめざして,LLMの推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4のゼロショット性能を総合的に評価する。
意外なことに、2021年9月以降、GPT-4の悲観的な性能は、データ汚染の可能性、そして既存のLCMが未確認の複雑な推論問題を解く上での課題など、あらゆる困難と種類の問題に対して一貫して低下しているように、崖を経験している。
さらに、微調整やチェーン・オブ・ソート(Chain-of-Thought)のプロンプト、問題記述の単純化など、さまざまなアプローチについても検討しています。
我々は,LLMの真の推論能力を評価する上で,この優れたデータソースの重要性を強調し,より強力な推論能力と将来的な一般化によるLCMの開発を促進する。
関連論文リスト
- Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。
本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。
BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文 参考訳(メタデータ) (2024-07-06T17:01:04Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Decoding Stumpers: Large Language Models vs. Human Problem-Solvers [14.12892960275563]
4つの最先端の大規模言語モデルの性能を人的参加者と比較する。
次世代のLSMは、ステンパーの解決と人間のパフォーマンスに勝る。
人間は、同じ問題に対する解決策を検証するのに優れたスキルを示す。
論文 参考訳(メタデータ) (2023-10-25T06:54:39Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。