論文の概要: ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding
- arxiv url: http://arxiv.org/abs/2510.10549v1
- Date: Sun, 12 Oct 2025 11:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.003363
- Title: ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding
- Title(参考訳): ELAIPBench: エキスパートレベルの人工知能論文理解のためのベンチマーク
- Authors: Xinbang Dai, Huikang Hu, Yongrui Chen, Jiaqi Li, Rihui Jin, Yuyang Zhang, Xiaoguang Li, Lifeng Shang, Guilin Qi,
- Abstract要約: ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
- 参考スコア(独自算出の注目度): 49.67493845115009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) excel at many domain-specific tasks, their ability to deeply comprehend and reason about full-length academic papers remains underexplored. Existing benchmarks often fall short of capturing such depth, either due to surface-level question design or unreliable evaluation metrics. To address this gap, we introduce ELAIPBench, a benchmark curated by domain experts to evaluate LLMs' comprehension of artificial intelligence (AI) research papers. Developed through an incentive-driven, adversarial annotation process, ELAIPBench features 403 multiple-choice questions from 137 papers. It spans three difficulty levels and emphasizes non-trivial reasoning rather than shallow retrieval. Our experiments show that the best-performing LLM achieves an accuracy of only 39.95%, far below human performance. Moreover, we observe that frontier LLMs equipped with a thinking mode or a retrieval-augmented generation (RAG) system fail to improve final results-even harming accuracy due to overthinking or noisy retrieval. These findings underscore the significant gap between current LLM capabilities and genuine comprehension of academic papers.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのドメイン特化課題において優れているが、完全な学術論文について深く理解し、推論する能力はいまだに未解明である。
既存のベンチマークは、表面レベルの質問設計や信頼性の低い評価指標によって、そのような深さを捉えていない場合が多い。
このギャップに対処するため,ドメインの専門家によるLEMsの人工知能(AI)研究論文の理解を評価するためのベンチマークであるELAIPBenchを紹介した。
ELAIPBenchはインセンティブ駆動の敵対的アノテーションプロセスによって開発され、137の論文から403の質問が寄せられている。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果,最高性能のLDMは,人的性能よりはるかに低い39.95%の精度で達成できることがわかった。
さらに、思考モードや検索拡張生成(RAG)システムを備えたフロンティアLLMは、過度に考え抜かれたり、騒々しい検索によって、最終結果の精度を損なうことなく、最終的な結果を改善することができないことを観察する。
これらの知見は,現在のLLM能力と学術論文の真の理解との間に有意なギャップがあることを浮き彫りにしている。
関連論文リスト
- Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。