論文の概要: HistoryBankQA: Multilingual Temporal Question Answering on Historical Events
- arxiv url: http://arxiv.org/abs/2509.12720v1
- Date: Tue, 16 Sep 2025 06:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.920632
- Title: HistoryBankQA: Multilingual Temporal Question Answering on Historical Events
- Title(参考訳): ヒストリーバンクQA: 歴史的出来事に関する複数の言語的時間的質問
- Authors: Biswadip Mandal, Anant Khandelwal, Manish Gupta,
- Abstract要約: ウィキペディアのタイムラインページと記事インフォボックスから抽出した10万以上の歴史的イベントの多言語データベースであるHistoryBankを提示する。
また,全言語にわたる時間的推論のための総合的な質問応答ベンチマークを構築した。
本研究の目的は、歴史的事象の多言語的・時間的に認識された自然言語理解を促進するための総合的なリソースを提供することである。
- 参考スコア(独自算出の注目度): 23.483982803102517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal reasoning about historical events is a critical skill for NLP tasks like event extraction, historical entity linking, temporal question answering, timeline summarization, temporal event clustering and temporal natural language inference. Yet efforts on benchmarking temporal reasoning capabilities of large language models (LLMs) are rather limited. Existing temporal reasoning datasets are limited in scale, lack multilingual coverage and focus more on contemporary events. To address these limitations, we present HistoryBank, a multilingual database of 10M+ historical events extracted from Wikipedia timeline pages and article infoboxes. Our database provides unprecedented coverage in both historical depth and linguistic breadth with 10 languages. Additionally, we construct a comprehensive question answering benchmark for temporal reasoning across all languages. This benchmark covers a diverse set of 6 temporal QA reasoning tasks, and we evaluate a suite of popular language models (LLaMA-3-8B, Mistral-7B, Gemma-2-9b, Qwen3-8B, GPT4o) to assess their performance on these tasks. As expected GPT4o performs best across all answer types and languages; Gemma-2 outperforms the other small language models. Our work aims to provide a comprehensive resource for advancing multilingual and temporally-aware natural language understanding of historical events. To facilitate further research, we will make our code and datasets publicly available upon acceptance of this paper.
- Abstract(参考訳): 歴史的イベントに関する時間的推論は、イベント抽出、歴史的エンティティリンク、時間的質問応答、タイムライン要約、時間的イベントクラスタリング、時間的自然言語推論といったNLPタスクにとって重要なスキルである。
しかし、大規模言語モデル(LLM)の時間的推論能力のベンチマークへの取り組みは、かなり限られている。
既存の時間的推論データセットは規模が限られており、多言語カバレッジが欠如しており、現代のイベントに集中している。
この制限に対処するため,Wikipediaのタイムラインページや記事インフォボックスから抽出した10万以上の歴史的イベントの多言語データベースであるHistoryBankを紹介した。
我々のデータベースは、歴史的深度と言語的幅の両方において、10の言語で前例のないカバレッジを提供します。
さらに,全言語にまたがる時間的推論のための包括的質問応答ベンチマークを構築した。
このベンチマークでは,6つの時間的QA推論タスクの多種多様なセットを網羅し,一般的な言語モデル (LLaMA-3-8B, Mistral-7B, Gemma-2-9b, Qwen3-8B, GPT4o) を評価し,それらのタスクの性能を評価する。
GPT4oはすべての応答型や言語で最高のパフォーマンスを示しており、Gemma-2は他の小さな言語モデルよりも優れている。
本研究の目的は、歴史的事象の多言語的・時間的に認識された自然言語理解を促進するための総合的なリソースを提供することである。
さらなる研究を容易にするため、本論文の受理後、コードとデータセットを公開します。
関連論文リスト
- Inferring Events from Time Series using Language Models [13.414101942484582]
時系列データは、時間とともに環境がどのように変化するかを測定し、金融や医療といった重要な領域における意思決定を促進する。
本研究では,Large Language Models (LLMs) が時系列データから自然言語で記述された事象を推測できるかどうかを初めて検討する。
現在のLLMはいくつかの有望な能力を示しており、OpenAIのo1は最高だが、DS-R1-distill-Qwen-32BはGPT-4oのようなプロプライエタリなモデルより優れている。
論文 参考訳(メタデータ) (2025-03-18T12:07:33Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Language Models Still Struggle to Zero-shot Reason about Time Series [11.764833497297493]
時系列は金融や医療といった分野における意思決定に不可欠だ。
非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。
時系列推論のための一級評価フレームワークを生成する。
論文 参考訳(メタデータ) (2024-04-17T21:27:33Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。