論文の概要: AfriEconQA: A Benchmark Dataset for African Economic Analysis based on World Bank Reports
- arxiv url: http://arxiv.org/abs/2601.15297v1
- Date: Tue, 06 Jan 2026 00:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.837327
- Title: AfriEconQA: A Benchmark Dataset for African Economic Analysis based on World Bank Reports
- Title(参考訳): AfriEconQA:世界銀行レポートに基づくアフリカ経済分析のためのベンチマークデータセット
- Authors: Edward Ajayi,
- Abstract要約: AfriEconQAは、世界銀行の包括的コーパスに基づくアフリカ経済分析のための特別なベンチマークデータセットである。
データセットは8,937のキュレートされたQAインスタンスで構成され、10018の合成質問のプールから厳格にフィルタリングされる。
AfriEconQAはアフリカ経済分析に特化した最初のベンチマークであり、Information Retrieval (IR)システムに固有の課題を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AfriEconQA, a specialized benchmark dataset for African economic analysis grounded in a comprehensive corpus of 236 World Bank reports. The task of AfriEconQA is to answer complex economic queries that require high-precision numerical reasoning and temporal disambiguation from specialized institutional documents. The dataset consists of 8,937 curated QA instances, rigorously filtered from a pool of 10018 synthetic questions to ensure high-quality evidence-answer alignment. Each instance is composed of: (1) a question requiring reasoning over economic indicators, (2) the corresponding evidence retrieved from the corpus, (3) a verified ground-truth answer, and (4) source metadata (e.g., URL and publication date) to ensure temporal provenance. AfriEconQA is the first benchmark focused specifically on African economic analysis, providing a unique challenge for Information Retrieval (IR) systems, as the data is largely absent from the pretraining corpora of current Large Language Models (LLMs). We operationalize this dataset through an 11-experiment matrix, benchmarking a zero-shot baseline (GPT-5 Mini) against RAG configurations using GPT-4o and Qwen 32B across five distinct embedding and ranking strategies. Our results demonstrate a severe parametric knowledge gap, where zero-shot models fail to answer over 90 percent of queries, and even state-of-the-art RAG pipelines struggle to achieve high precision. This confirms AfriEconQA as a robust and challenging benchmark for the next generation of domain-specific IR and RAG systems. The AfriEconQA dataset and code will be made publicly available upon publication.
- Abstract(参考訳): AfriEconQAは、アフリカ経済分析のための特別なベンチマークデータセットで、世界銀行の236の報告書の包括的コーパスに基づいている。
AfriEconQAの任務は、特殊な機関文書からの高精度な数値推論と時間的曖昧さを必要とする複雑な経済的なクエリに答えることである。
データセットは8,937のキュレートされたQAインスタンスで構成されており、高品質なエビデンスと回答のアライメントを確保するために、10018の合成質問のプールから厳密にフィルタリングされている。
各事例は,(1)経済指標に関する推論を必要とする質問,(2)コーパスから取得した対応する証拠,(3)確証された根本的回答,(4)資料メタデータ(例,URL及び公開日)からなり,時間的証明が確保される。
AfriEconQAはアフリカ経済分析に特化した最初のベンチマークであり、現在のLarge Language Models (LLM) の事前学習コーパスからデータがほとんど欠落しているため、情報検索(IR)システムに固有の課題を提供する。
GPT-4o と Qwen 32B を用いて, ゼロショットベースライン (GPT-5 Mini) と RAG の構成を5つの異なる埋め込みとランキング戦略でベンチマークし, このデータセットを11実験行列で運用する。
その結果、ゼロショットモデルは90%以上のクエリに答えられず、最先端のRAGパイプラインでさえ高い精度を達成するのに苦労しているという深刻なパラメトリック知識ギャップが示される。
これにより、AfriEconQAは、次世代のドメイン固有IRおよびRAGシステムの堅牢で挑戦的なベンチマークであると確認される。
AfriEconQAデータセットとコードは公開時に公開される。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Rethinking Retrieval: From Traditional Retrieval Augmented Generation to Agentic and Non-Vector Reasoning Systems in the Financial Domain for Large Language Models [0.0]
本稿では,ベクトルベースエージェントRAGをハイブリッド検索とメタデータフィルタリングを用いて比較した最初の体系的評価を行う。
検索指標(MRR, Recall@5), LLM-as-a-judgeのペア比較, レイテンシ, 前処理コストを計測する。
以上の結果から,金融Q&Aシステムに先進的なRAG技術を適用することにより,検索精度,回答品質が向上し,生産における費用対効果のトレードオフが考慮されることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-22T20:06:25Z) - RAGferee: Building Contextual Reward Models for Retrieval-Augmented Generation [26.854073751273585]
RAGfereeは、質問回答(QA)データセットを、スタイリスティックな特徴よりも基礎性を優先する選好ペアに再利用する方法論である。
RAGfereeを用いて、4Kサンプルと7Bから24Bパラメータの微調整RMの小さな選好データセットをキュレートする。
我々のRAG中心のRMはConJudgeBenchの最先端性能を達成し、既存の70B以上のRMをはるかに大きな(2.4Mサンプルまで)一般コーパスで訓練し、+15.5%の絶対的な改善を実現した。
論文 参考訳(メタデータ) (2025-09-30T09:41:40Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs [0.0]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。
本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。
我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
論文 参考訳(メタデータ) (2024-11-01T23:03:40Z) - FinTextQA: A Dataset for Long-form Financial Question Answering [10.1084081290893]
FinTextQAは金融における長文質問応答(LFQA)のための新しいデータセットである。
我々のデータセット上で最も効果的なシステム構成は、組込み器、レトリバー、リランカー、ジェネレータをAda2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7Bとして設定することであった。
論文 参考訳(メタデータ) (2024-05-16T10:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。