論文の概要: On Path to Multimodal Historical Reasoning: HistBench and HistAgent
- arxiv url: http://arxiv.org/abs/2505.20246v2
- Date: Sat, 07 Jun 2025 21:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.140743
- Title: On Path to Multimodal Historical Reasoning: HistBench and HistAgent
- Title(参考訳): マルチモーダルな歴史的推論への道-HistBenchとHistAgent
- Authors: Jiahao Qiu, Fulian Xiao, Yimin Wang, Yuchen Mao, Yijia Chen, Xinzhe Juan, Siran Wang, Xuan Qi, Tongcheng Zhang, Zixin Yao, Jiacheng Guo, Yifu Lu, Charles Argon, Jundi Cui, Daixin Chen, Junran Zhou, Shuyao Zhou, Zhanpeng Zhou, Ling Yang, Shilong Liu, Hongru Wang, Kaixuan Huang, Xun Jiang, Yuming Cao, Yue Chen, Yunfei Chen, Zhengyi Chen, Ruowei Dai, Mengqiu Deng, Jiye Fu, Yunting Gu, Zijie Guan, Zirui Huang, Xiaoyan Ji, Yumeng Jiang, Delong Kong, Haolong Li, Jiaqi Li, Ruipeng Li, Tianze Li, Zhuoran Li, Haixia Lian, Mengyue Lin, Xudong Liu, Jiayi Lu, Jinghan Lu, Wanyu Luo, Ziyue Luo, Zihao Pu, Zhi Qiao, Ruihuan Ren, Liang Wan, Ruixiang Wang, Tianhui Wang, Yang Wang, Zeyu Wang, Zihua Wang, Yujia Wu, Zhaoyi Wu, Hao Xin, Weiao Xing, Ruojun Xiong, Weijie Xu, Yao Shu, Yao Xiao, Xiaorui Yang, Yuchen Yang, Nan Yi, Jiadong Yu, Yangyuxuan Yu, Huiting Zeng, Danni Zhang, Yunjie Zhang, Zhaoyu Zhang, Zhiheng Zhang, Xiaofeng Zheng, Peirong Zhou, Linyan Zhong, Xiaoyin Zong, Ying Zhao, Zhenxin Chen, Lin Ding, Xiaoyu Gao, Bingbing Gong, Yichao Li, Yang Liao, Guang Ma, Tianyuan Ma, Xinrui Sun, Tianyi Wang, Han Xia, Ruobing Xian, Gen Ye, Tengfei Yu, Wentao Zhang, Yuxi Wang, Xi Gao, Mengdi Wang,
- Abstract要約: HistBenchは、AIの歴史的推論能力を評価するために設計された、414の高品質な質問の新しいベンチマークである。
タスクは、一次資料に基づく事実検索から、原稿や画像の解釈分析まで、幅広い歴史的問題にまたがる。
我々は、OCR、翻訳、アーカイブ検索、ヒストリーにおける画像理解のための慎重に設計されたツールを備えたヒストアジェント(HistAgent)を提示する。
- 参考スコア(独自算出の注目度): 67.45853983042892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to remarkable progress across domains, yet their capabilities in the humanities, particularly history, remain underexplored. Historical reasoning poses unique challenges for AI, involving multimodal source interpretation, temporal inference, and cross-linguistic analysis. While general-purpose agents perform well on many existing benchmarks, they lack the domain-specific expertise required to engage with historical materials and questions. To address this gap, we introduce HistBench, a new benchmark of 414 high-quality questions designed to evaluate AI's capacity for historical reasoning and authored by more than 40 expert contributors. The tasks span a wide range of historical problems-from factual retrieval based on primary sources to interpretive analysis of manuscripts and images, to interdisciplinary challenges involving archaeology, linguistics, or cultural history. Furthermore, the benchmark dataset spans 29 ancient and modern languages and covers a wide range of historical periods and world regions. Finding the poor performance of LLMs and other agents on HistBench, we further present HistAgent, a history-specific agent equipped with carefully designed tools for OCR, translation, archival search, and image understanding in History. On HistBench, HistAgent based on GPT-4o achieves an accuracy of 27.54% pass@1 and 36.47% pass@2, significantly outperforming LLMs with online search and generalist agents, including GPT-4o (18.60%), DeepSeek-R1(14.49%) and Open Deep Research-smolagents(20.29% pass@1 and 25.12% pass@2). These results highlight the limitations of existing LLMs and generalist agents and demonstrate the advantages of HistAgent for historical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ドメイン間において顕著な進歩をもたらしたが、人文科学、特に歴史におけるその能力は、まだ未解明のままである。
歴史的推論は、マルチモーダルソース解釈、時間的推論、言語間分析を含む、AIに固有の課題を提起する。
汎用エージェントは多くの既存のベンチマークでうまく機能するが、歴史的資料や疑問を扱うために必要なドメイン固有の専門知識は欠如している。
このギャップに対処するために、40人以上の専門家コントリビュータによって執筆された、AIの歴史的推論能力を評価するために設計された、414の高品質な質問のベンチマークであるHistBenchを紹介した。
タスクは、一次資料に基づく事実検索から、写本や画像の解釈分析、考古学、言語学、文化史に関する学際的課題まで、幅広い歴史的問題にまたがる。
さらに、ベンチマークデータセットは29の古代と近代の言語にまたがり、幅広い歴史的時代と世界地域をカバーする。
HistBench上でのLSMおよびその他のエージェントの性能の低下を見いだし、OCR、翻訳、アーカイブ検索、歴史における画像理解のための慎重に設計されたツールを備えた歴史特化エージェントであるHistAgentを提示する。
HistBenchでは、GPT-4oをベースとしたHistAgentは27.54%のpass@1と36.47%のpass@2の精度を達成し、オンライン検索およびジェネリストエージェント(GPT-4o (18.60%)、DeepSeek-R1(14.49%)、Open Deep Research-smolagents(20.29% pass@1と25.12% pass@2)など)でLLMをはるかに上回っている。
これらの結果は、既存のLLMとジェネリストエージェントの限界を強調し、歴史的推論におけるHistAgentの利点を実証している。
関連論文リスト
- Kongzi: A Historical Large Language Model with Fact Enhancement [4.687722574822698]
Kongziは、歴史的分析のために特別に設計された大きな言語モデルである。
キュレートされた高品質の歴史的データと新しい事実強化学習戦略の統合により、コンジは強い事実整合性と洗練された推論深度を示す。
論文 参考訳(メタデータ) (2025-04-13T09:01:05Z) - AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation [19.656423980933944]
本稿では,知識グラフ(KG)を利用した検索強化世代(RAG)とアンチハロシン化マルチエージェントを特徴とする,新しいエンドツーエンドエージェントシステムであるAIstorianを紹介する。
具体的には、AIstorianは、コンテキスト内学習に基づくチャンキング戦略と、正確で効率的な参照検索のためのKGベースのインデックスを導入している。
実生活の歴史的神史データセットの実験では、アリストリア語は実際の精度が3.8倍向上し、幻覚率も47.6%低下した。
論文 参考訳(メタデータ) (2025-03-14T12:23:45Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training [9.128501882000315]
大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
論文 参考訳(メタデータ) (2023-11-15T18:42:44Z) - If the Sources Could Talk: Evaluating Large Language Models for Research
Assistance in History [1.3325600043256554]
高度に専門化された学術資料からのベクトル埋め込みによる大規模言語モデルの拡大により,人文科学の歴史家や他の研究者が会話の方法論を利用できることを示す。
メタデータや全文検索など,デジタルカタログの確立された検索インタフェースと比較して,2種類のタスクのパフォーマンスに対して,LLMのよりリッチな会話スタイルを評価する。
論文 参考訳(メタデータ) (2023-10-16T20:12:06Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。