論文の概要: FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence
- arxiv url: http://arxiv.org/abs/2510.02906v1
- Date: Fri, 03 Oct 2025 11:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.361279
- Title: FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence
- Title(参考訳): FinReflectKG - MultiHop: 知識グラフによる推論のための財務QAベンチマーク
- Authors: Abhinav Arun, Reetu Raj Harsh, Bhaskarjit Sarmah, Stefano Pasquali,
- Abstract要約: FinReflectKG - FinReflectKG上に構築されたベンチマークであるMultiHop。
我々は、KGから正確な裏付けのある財務アナリストスタイルの質問を生成する。
推論モデルと非推論モデルの両方において、KG誘導による正確な検索は実質的な利得をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-hop reasoning over financial disclosures is often a retrieval problem before it becomes a reasoning or generation problem: relevant facts are dispersed across sections, filings, companies, and years, and LLMs often expend excessive tokens navigating noisy context. Without precise Knowledge Graph (KG)-guided selection of relevant context, even strong reasoning models either fail to answer or consume excessive tokens, whereas KG-linked evidence enables models to focus their reasoning on composing already retrieved facts. We present FinReflectKG - MultiHop, a benchmark built on FinReflectKG, a temporally indexed financial KG that links audited triples to source chunks from S&P 100 filings (2022-2024). Mining frequent 2-3 hop subgraph patterns across sectors (via GICS taxonomy), we generate financial analyst style questions with exact supporting evidence from the KG. A two-phase pipeline first creates QA pairs via pattern-specific prompts, followed by a multi-criteria quality control evaluation to ensure QA validity. We then evaluate three controlled retrieval scenarios: (S1) precise KG-linked paths; (S2) text-only page windows centered on relevant text spans; and (S3) relevant page windows with randomizations and distractors. Across both reasoning and non-reasoning models, KG-guided precise retrieval yields substantial gains on the FinReflectKG - MultiHop QA benchmark dataset, boosting correctness scores by approximately 24 percent while reducing token utilization by approximately 84.5 percent compared to the page window setting, which reflects the traditional vector retrieval paradigm. Spanning intra-document, inter-year, and cross-company scopes, our work underscores the pivotal role of knowledge graphs in efficiently connecting evidence for multi-hop financial QA. We also release a curated subset of the benchmark (555 QA Pairs) to catalyze further research.
- Abstract(参考訳): 金融開示に関するマルチホップ推論は、しばしば、推論や生成の問題になる前に検索問題となる:関連する事実は、セクション、申請書、会社、年によって分散され、LLMは、ノイズの多いコンテキストをナビゲートする過剰なトークンをエクスプットすることが多い。
正確な知識グラフ(KG)による関連するコンテキストの選択がなければ、強力な推論モデルでさえ、過剰なトークンに答えたり消費したりするのに失敗する。
FinReflectKG - FinReflectKG上に構築されたベンチマークであるMultiHopは、監査済みのトリプルをS&P100のファイリング(2022-2024)のソースチャンクにリンクする時間インデックス付き金融KGである。
GICS分類による)セクターにまたがる2-3ホップのサブグラフパターンをマイニングすることで、KGからの正確な裏付けのある金融アナリストスタイルの質問を生成する。
2相パイプラインは、まずパターン固有のプロンプトを介してQAペアを生成し、続いて、QAの妥当性を保証するための複数基準品質制御評価を行う。
次に, (S1) 正確な KG リンクパス, (S2) テキストのみのページウィンドウ, (S3) 関連ページウィンドウを乱数化, 乱数化, 乱数化処理を行う。
推論モデルと非推論モデルの両方において、KG誘導による精密検索はFinReflectKG - MultiHop QAベンチマークデータセットでかなりの利得を得られ、従来のベクトル探索パラダイムを反映したページウィンドウ設定と比較して、トークンの利用率を約84.5パーセント削減し、正確性スコアを約24%向上させる。
文書内、年内、企業間の範囲を拡大し、マルチホップ財務QAのエビデンスを効率的に結びつける上で、知識グラフが重要な役割を担っていることを明らかにする。
また、さらなる研究を促進するために、ベンチマークのキュレートされたサブセット(555 QA Pairs)もリリースしました。
関連論文リスト
- FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - AGENTICT$^2$S:Robust Text-to-SPARQL via Agentic Collaborative Reasoning over Heterogeneous Knowledge Graphs for the Circular Economy [42.73610751710192]
AgenticT$2$Sは、知識グラフを専門エージェントが管理するサブタスクに分解するフレームワークである。
2段階検証器は、構造的に無効で意味的に不特定なクエリを検出する。
実世界の循環経済の実験では、AgenticT$2$Sが実行精度を17.3%向上することを示した。
論文 参考訳(メタデータ) (2025-08-03T15:58:54Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [18.821122274064116]
FAMMA(Underlinefininlineancial underlinemultilingual underlinemultimodal question underlineanswering, QA)のオープンソースベンチマークを紹介する。
本ベンチマークは,高度な財務知識を必要とする複雑な推論問題に対して,大規模言語モデル(LLM)の能力を評価することを目的とする。
論文 参考訳(メタデータ) (2024-10-06T15:41:26Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。