論文の概要: PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.01584v3
- Date: Mon, 31 Mar 2025 14:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:30:59.310442
- Title: PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
- Title(参考訳): Ph.D.の知識は不要:大規模言語モデルの推論課題
- Authors: Zixuan Wu, Francesca Lucchetti, Aleksander Boruch-Gruszecki, Jingmiao Zhao, Carolyn Jane Anderson, Joydeep Biswas, Federico Cassano, Molly Q Feldman, Arjun Guha,
- Abstract要約: 既存のフロンティアモデルのベンチマークは、非専門家が把握するのが難しい専門的な"PhDレベル"の知識をテストすることが多い。
一般知識のみを必要とするNPRサンデー・パズル・チャレンジに基づく594の問題点のベンチマークを提示する。
私たちのベンチマークは人間とモデルの両方にとって難しいものですが、正しいソリューションを検証するのは簡単で、モデルのミスを見つけるのは簡単です。
- 参考スコア(独自算出の注目度): 41.85078638790154
- License:
- Abstract: Existing benchmarks for frontier models often test specialized, "PhD-level" knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark with 594 problems based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models; however correct solutions are easy to verify, and models' mistakes are easy to spot. As LLMs are more widely deployed in society, we believe it is useful to develop benchmarks for frontier models that humans can understand without the need for deep domain expertise. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models on our benchmark, despite being on par with other models when tested on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with "I give up" before providing an answer that it knows is wrong. R1 can also be remarkably "uncertain" in its output and in rare cases, it does not "finish thinking," which suggests the need for techniques to "wrap up" before the context window limit is reached. We also quantify the effectiveness of reasoning longer to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.
- Abstract(参考訳): 既存のフロンティアモデルのベンチマークは、非専門家が把握するのが難しい専門的な"PhDレベル"の知識をテストすることが多い。
対照的に、NPRサンデー・パズル・チャレンジに基づく594の問題をベンチマークで示し、一般的な知識しか必要としない。
私たちのベンチマークは人間とモデルの両方にとって難しいものですが、正しいソリューションを検証するのは簡単で、モデルのミスを見つけるのは簡単です。
LLMはより広く社会に展開されているため、深いドメインの専門知識を必要とせずに人間が理解できるフロンティアモデルのベンチマークを開発することは有用であると考えています。
OpenAI o1は、専門知識をテストするベンチマークでテストした場合、他のモデルと同等であるにもかかわらず、ベンチマーク上の他の推論モデルよりも大幅に優れています。
さらに、推論出力の分析により、新しいタイプの故障が明らかになった。
例えば、DeepSeek R1は、しばしば「私は諦める」と認め、その答えが間違っていると答える。
R1は出力において著しく「不確実」であり、まれに「最終思考」ではないため、コンテキストウィンドウ限界に達する前に「巻き上げ」する技術の必要性が示唆される。
また、より多くの推論がベンチマークの精度を改善する可能性が低い点を特定するために、推論の有効性を定量化します。
関連論文リスト
- Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - A Case Study of Web App Coding with OpenAI Reasoning Models [1.7268889851975326]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。
o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文 参考訳(メタデータ) (2024-09-19T06:58:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。