論文の概要: GPQA: A Graduate-Level Google-Proof Q&A Benchmark
- arxiv url: http://arxiv.org/abs/2311.12022v1
- Date: Mon, 20 Nov 2023 18:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:27:20.868235
- Title: GPQA: A Graduate-Level Google-Proof Q&A Benchmark
- Title(参考訳): GPQA: 大学院レベルのGoogle-Proof Q&Aベンチマーク
- Authors: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard
Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
- Abstract要約: GPQAは、生物学、物理学、化学の分野の専門家によって書かれた448の多重選択質問のデータセットである。
対応する領域で博士号を取得または追跡している専門家は、精度が65%に達する(専門家が振り返りで特定した明確なミスを割引する場合の74%)。
高度に熟練した非熟練のバリデーターは34%の精度にしか達しないが、ウェブへの制限のないアクセスで平均30分以上費やされている(つまり、質問は「Googleで守られている」)。
- 参考スコア(独自算出の注目度): 36.646784216263626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GPQA, a challenging dataset of 448 multiple-choice questions
written by domain experts in biology, physics, and chemistry. We ensure that
the questions are high-quality and extremely difficult: experts who have or are
pursuing PhDs in the corresponding domains reach 65% accuracy (74% when
discounting clear mistakes the experts identified in retrospect), while highly
skilled non-expert validators only reach 34% accuracy, despite spending on
average over 30 minutes with unrestricted access to the web (i.e., the
questions are "Google-proof"). The questions are also difficult for
state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving
39% accuracy. If we are to use future AI systems to help us answer very hard
questions, for example, when developing new scientific knowledge, we need to
develop scalable oversight methods that enable humans to supervise their
outputs, which may be difficult even if the supervisors are themselves skilled
and knowledgeable. The difficulty of GPQA both for skilled non-experts and
frontier AI systems should enable realistic scalable oversight experiments,
which we hope can help devise ways for human experts to reliably get truthful
information from AI systems that surpass human capabilities.
- Abstract(参考訳): GPQAは,生物,物理,化学の分野の専門家が作成した,448の質問の挑戦的データセットである。
関連する領域で博士号を取得または追跡している専門家は65%の精度(振り返りで特定した専門家の明確なミスを割引する場合74%)、高度に熟練していないバリデーターは34%の精度でウェブへのアクセスに30分以上を費やしているにも関わらず(すなわち、質問は「Google-proof」である)、高品質で極めて難しい。
我々の最強のGPT-4ベースのベースラインが39%の精度を達成している。
例えば、新しい科学的知識を開発する際に、将来のAIシステムを使って、人間がアウトプットを監督できるスケーラブルな監視方法を開発する必要がある。
熟練した非専門家とフロンティアAIシステムのGPQAの難しさは、現実的なスケーラブルな監視実験を可能にするだろう。
関連論文リスト
- SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - GAIA: a benchmark for General AI Assistants [31.717241753626926]
一般AIアシスタントのベンチマークであるGAIAを紹介します。
GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。
プラグインを装着した GPT-4 では, GPT-4 が 92% 対 15% の回答を得た。
論文 参考訳(メタデータ) (2023-11-21T20:34:47Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - chatClimate: Grounding Conversational AI in Climate Science [9.043032065867536]
大きな言語モデル(LLM)は、トレーニングフェーズ後の幻覚と時代遅れの情報という、2つの大きな課題に直面しています。
我々は,会話型AIのプロトタイプをwww.chatclimate.aiで公開し,課題に正確に答える能力を示す。
回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。
論文 参考訳(メタデータ) (2023-04-11T21:31:39Z) - Results and Insights from Diagnostic Questions: The NeurIPS 2020
Education Challenge [40.96530220202453]
このコンペティションは、教育学的に効果的で多目的質問(MCQ)である教育診断に関するものである。
大規模な学習シナリオにおいて、自動パーソナライズされた学習を促進するために、MCQに対する数億の回答に関するデータをどのように使用できるのか?
約400チームが約4000の応募を提出したNeurIPSコンペティションについて報告します。
論文 参考訳(メタデータ) (2021-04-08T20:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。