論文の概要: Competition-Level Problems are Effective LLM Evaluators
- arxiv url: http://arxiv.org/abs/2312.02143v2
- Date: Tue, 5 Dec 2023 03:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:39:37.376193
- Title: Competition-Level Problems are Effective LLM Evaluators
- Title(参考訳): LLM評価器の競合レベル問題
- Authors: Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu
Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen
- Abstract要約: 本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
- 参考スコア(独自算出の注目度): 124.7648712310141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning
capabilities, yet there is ongoing debate about these abilities and the
potential data contamination problem recently. This paper aims to evaluate the
reasoning capacities of LLMs, specifically in solving recent competition-level
programming problems in Codeforces, which are expert-crafted and unique,
requiring deep understanding and robust reasoning skills. We first provide a
comprehensive evaluation of GPT-4's peiceived zero-shot performance on this
task, considering various aspects such as problems' release time, difficulties,
and types of errors encountered. Surprisingly, the peiceived performance of
GPT-4 has experienced a cliff like decline in problems after September 2021
consistently across all the difficulties and types of problems, which shows the
potential data contamination, as well as the challenges for any existing LLM to
solve unseen complex reasoning problems. We further explore various approaches
such as fine-tuning, Chain-of-Thought prompting and problem description
simplification, unfortunately none of them is able to consistently mitigate the
challenges. Through our work, we emphasis the importance of this excellent data
source for assessing the genuine reasoning capabilities of LLMs, and foster the
development of LLMs with stronger reasoning abilities and better generalization
in the future.
- Abstract(参考訳): 大規模言語モデル(LLM)は印象的な推論能力を示しているが、これらの能力と潜在的なデータ汚染問題に関して議論が続いている。
本稿では,LLMの推論能力,特に専門的かつ独特な,深い理解と堅牢な推論能力を必要とするCodeforcesにおける近年の競合レベルのプログラミング問題を解くことを目的とした。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4のゼロショット性能を総合的に評価する。
驚くべきことに、gpt-4の悲惨な性能は、2021年9月以降、データ汚染の可能性を示唆するあらゆる困難と種類の問題と、未発見の複雑な推論問題を解決するための既存のllmの課題を一貫して越えるほどに低下している。
私たちはさらに、微調整、チェーン・オブ・マインド(chain-of-thought)のプロンプト、問題記述の単純化といった様々なアプローチを探求します。
我々は,LLMの真の推論能力を評価する上で,この優れたデータソースの重要性を強調し,より強力な推論能力と将来的な一般化によるLCMの開発を促進する。
関連論文リスト
- When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Decoding Stumpers: Large Language Models vs. Human Problem-Solvers [14.12892960275563]
4つの最先端の大規模言語モデルの性能を人的参加者と比較する。
次世代のLSMは、ステンパーの解決と人間のパフォーマンスに勝る。
人間は、同じ問題に対する解決策を検証するのに優れたスキルを示す。
論文 参考訳(メタデータ) (2023-10-25T06:54:39Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。