論文の概要: PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.01584v1
- Date: Mon, 03 Feb 2025 18:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.34246
- Title: PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
- Title(参考訳): Ph.D.の知識は不要:大規模言語モデルの推論課題
- Authors: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu,
- Abstract要約: 一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提案する。
私たちの研究は、既存のベンチマークでは明らかでない機能ギャップを明らかにしています。
- 参考スコア(独自算出の注目度): 43.24329527262729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for frontier models often test specialized, ``PhD-level'' knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models, however correct solutions are easy to verify, and models' mistakes are easy to spot. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models that are on par on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ``I give up'' before providing an answer that it knows is wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases, it does not ``finish thinking,'' which suggests the need for an inference-time technique to ``wrap up'' before the context window limit is reached. We also quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.
- Abstract(参考訳): 既存のフロンティアモデルのベンチマークは、非専門家が把握するのが難しい『PhDレベル』の知識を専門的にテストすることが多い。
対照的に、一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提示する。
私たちのベンチマークは人間とモデルの両方にとって難しいものですが、正しいソリューションを検証するのは簡単で、モデルのミスを見つけるのは簡単です。
OpenAI o1は、専門知識をテストするベンチマークに匹敵する他の推論モデルよりも大幅に優れています。
さらに、推論出力の分析により、新しいタイプの故障が明らかになった。
例えば、DeepSeek R1は、理解している答えが間違っていると答える前に、しばしば 'I don up' で譲る。
R1 はその出力において明らかに ``不確か' であり、まれに ' ``finish thinking,'' は、コンテキストウィンドウ限界に達する前に ``wrap up' への推論時テクニックの必要性を示唆している。
また、R1 と Gemini Thinking でより長い推論の有効性を定量化して、ベンチマークの精度が向上する可能性が低い点を特定します。
関連論文リスト
- THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs [3.850766603072179]
大規模言語モデル (LLM) を評価するためにDon't Reason Bench (DNR Bench) を導入する。
DNR Benchは、人間が容易に理解し、反応できる150個の逆向きのプロンプトで構成されている。
我々の実験により、RTMは必要以上に最大70倍のトークンを生成し、より単純な非推論モデルがより高精度で効率的に処理するタスクに失敗することが判明した。
論文 参考訳(メタデータ) (2025-03-20T02:19:14Z) - MastermindEval: A Simple But Scalable Reasoning Benchmark [3.5519847710183674]
MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-03-07T19:24:59Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。