論文の概要: ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts
- arxiv url: http://arxiv.org/abs/2505.16566v1
- Date: Thu, 22 May 2025 11:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.265793
- Title: ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts
- Title(参考訳): ScholarBench: 学術的文脈における抽象化、理解、推論評価のためのバイリンガルベンチマーク
- Authors: Dongwon Noh, Donghyeok Koh, Junghun Yuk, Gyuwan Kim, Jaeyong Lee, Kyungtae Lim, Cheoneum Park,
- Abstract要約: textttScholarBenchは、大規模言語モデル(LLM)の学術的推論能力を評価するためのベンチマークである。
このベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ、平均評価スコアは0.543点だった。
- 参考スコア(独自算出の注目度): 13.79519099452634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prior benchmarks for evaluating the domain-specific knowledge of large language models (LLMs) lack the scalability to handle complex academic tasks. To address this, we introduce \texttt{ScholarBench}, a benchmark centered on deep expert knowledge and complex academic problem-solving, which evaluates the academic reasoning ability of LLMs and is constructed through a three-step process. \texttt{ScholarBench} targets more specialized and logically complex contexts derived from academic literature, encompassing five distinct problem types. Unlike prior benchmarks, \texttt{ScholarBench} evaluates the abstraction, comprehension, and reasoning capabilities of LLMs across eight distinct research domains. To ensure high-quality evaluation data, we define category-specific example attributes and design questions that are aligned with the characteristic research methodologies and discourse structures of each domain. Additionally, this benchmark operates as an English-Korean bilingual dataset, facilitating simultaneous evaluation for linguistic capabilities of LLMs in both languages. The benchmark comprises 5,031 examples in Korean and 5,309 in English, with even state-of-the-art models like o3-mini achieving an average evaluation score of only 0.543, demonstrating the challenging nature of this benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)のドメイン固有の知識を評価するための以前のベンチマークでは、複雑な学術的なタスクを扱うためのスケーラビリティが欠けていた。
そこで本研究では,LLMの学術的推論能力を評価し,三段階のプロセスで構築する,深層知識と複雑な学術的問題解決を中心としたベンチマークである「texttt{ScholarBench}」を紹介する。
\texttt{ScholarBench} は、学術文献から派生したより専門的で論理的に複雑な文脈を対象とし、5つの異なる問題タイプを含んでいる。
以前のベンチマークとは異なり、 \texttt{ScholarBench} は8つの異なる研究領域にわたる LLM の抽象化、理解、推論能力を評価する。
高品質な評価データを確保するため,各領域の特徴的研究手法や談話構造に適合するカテゴリ固有の事例属性と設計質問を定義した。
さらに、このベンチマークは英語と韓国語のバイリンガルデータセットとして動作し、両方の言語におけるLLMの言語能力の同時評価を容易にする。
ベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ平均評価スコアは0.543で、このベンチマークの難しい性質を示している。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。
19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - On the Evaluation of Neural Code Translation: Taxonomy and Benchmark [12.431884660186281]
我々は,コードの翻訳タスクを,その複雑さと知識依存度に応じて4つの一次タイプに分類する分類法を開発した。
次に、これらの4つのカテゴリで既存のアプローチがどのように機能するかを徹底的に分析する。
以上の結果から,最先端のコード翻訳モデルでは1型,2型が優れているが,3型,4型といった知識に依存しない翻訳に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-08-17T13:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。