論文の概要: Can LLMs Act as Historians? Evaluating Historical Research Capabilities of LLMs via the Chinese Imperial Examination
- arxiv url: http://arxiv.org/abs/2604.24690v1
- Date: Mon, 27 Apr 2026 16:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.183496
- Title: Can LLMs Act as Historians? Evaluating Historical Research Capabilities of LLMs via the Chinese Imperial Examination
- Title(参考訳): LLMは歴史学者として機能するか? : 中国帝国試験によるLLMの歴史的研究能力の評価
- Authors: Lirong Gao, Zeqing Wang, Yuyan Cai, Jiayi Deng, Yanmei Gu, Yiming Zhang, Jia Zhou, Yanfei Zhang, Junbo Zhao,
- Abstract要約: ProHist-Bench(プロヒスト・ベンチ)は、中国帝国試験(ケジュ)システムにインストールされた新しいベンチマークである。
8つの王朝に400の挑戦的で専門家による質問があり、10,891のきめ細かい評価ルーリックが伴っている。
最先端のLLMでさえ、複雑な歴史的研究課題に苦しむ。
- 参考スコア(独自算出の注目度): 11.650720838376634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have increasingly assisted in historical tasks such as text processing, their capacity for professional-level historical reasoning remains underexplored. Existing benchmarks primarily assess basic knowledge breadth or lexical understanding, failing to capture the higher-order skills, such as evidentiary reasoning,that are central to historical research. To fill this gap, we introduce ProHist-Bench, a novel benchmark anchored in the Chinese Imperial Examination (Keju) system, a comprehensive microcosm of East Asian political, social, and intellectual history spanning over 1,300 years. Developed through deep interdisciplinary collaboration, ProHist-Bench features 400 challenging, expert-curated questions across eight dynasties, accompanied by 10,891 fine-grained evaluation rubrics. Through a rigorous evaluation of 18 LLMs, we reveal a significant proficiency gap: even state-of-the-art LLMs struggle with complex historical research questions. We hope ProHist-Bench will facilitate the development of domain-specific reasoning LLMs, advance computational historical research, and further uncover the untapped potential of LLMs. We release ProHist-Bench at https://github.com/inclusionAI/ABench/tree/main/ProHist-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト処理などの歴史的タスクをますます支援してきたが、プロフェッショナルレベルの歴史的推論の能力はいまだ探索されていない。
既存のベンチマークは、主に基礎知識の広さや語彙的理解を評価し、歴史的研究の中心である明らかな推論のような高次のスキルを捉えていない。
このギャップを埋めるために,1300年以上にわたる東アジアの政治・社会・知的歴史の包括的マイクロスコープである,中国帝国試験(ケジュ)システムに係わる新しいベンチマークであるProHist-Benchを紹介する。
ProHist-Benchは、深い学際的なコラボレーションを通じて開発され、8つの王朝にまたがる400の挑戦的で専門家による質問と10,891のきめ細かい評価ルーブを伴っている。
18のLLMの厳密な評価を通じて、我々は、最先端のLLMでさえ、複雑な歴史的研究課題に苦しむ、有能なギャップを明らかにした。
我々は ProHist-Bench がドメイン固有推論 LLM の開発を容易にし、計算史研究を進展させ、LLM の未解決の可能性を明らかにすることを願っている。
https://github.com/inclusionAI/ABench/tree/main/ProHist-BenchでProHist-Benchをリリースします。
関連論文リスト
- Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - On Path to Multimodal Historical Reasoning: HistBench and HistAgent [68.02249599465337]
HistBenchは、AIの歴史的推論能力を評価するために設計された、414の高品質な質問の新しいベンチマークである。
タスクは、一次資料に基づく事実検索から、原稿や画像の解釈分析まで、幅広い歴史的問題にまたがる。
我々は、OCR、翻訳、アーカイブ検索、ヒストリーにおける画像理解のための慎重に設計されたツールを備えたヒストアジェント(HistAgent)を提示する。
論文 参考訳(メタデータ) (2025-05-26T17:22:20Z) - Kongzi: A Historical Large Language Model with Fact Enhancement [4.687722574822698]
Kongziは、歴史的分析のために特別に設計された大きな言語モデルである。
キュレートされた高品質の歴史的データと新しい事実強化学習戦略の統合により、コンジは強い事実整合性と洗練された推論深度を示す。
論文 参考訳(メタデータ) (2025-04-13T09:01:05Z) - HistoLens: An LLM-Powered Framework for Multi-Layered Analysis of Historical Texts -- A Case Application of Yantie Lun [0.43512163406552007]
HistoLensは、Large Language Models (LLMs)に基づく歴史的テキストのための多層解析フレームワークである。
HistoLensは、名前付きエンティティ認識、知識グラフの構築、地理情報可視化など、NLP技術を統合している。
本稿は,多次元・視覚的・定量的手法を用いて,ヒストレンスが「ヤンティー・ルン」の西漢文化を探索する方法について述べる。
論文 参考訳(メタデータ) (2024-11-15T06:21:13Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。