論文の概要: FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation
- arxiv url: http://arxiv.org/abs/2510.05710v1
- Date: Tue, 07 Oct 2025 09:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.180592
- Title: FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation
- Title(参考訳): FinReflectKG - EvalBench:多次元評価による財務KGのベンチマーク
- Authors: Fabrizio Dimino, Abhinav Arun, Bhaskarjit Sarmah, Stefano Pasquali,
- Abstract要約: FinReflectKG - EvalBenchは金融知識グラフのベンチマークおよび評価フレームワークである。
監査済みのトリプルをS&P 100ファイルのソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする。
以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率のよい代替手段となることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly being used to extract structured knowledge from unstructured financial text. Although prior studies have explored various extraction methods, there is no universal benchmark or unified evaluation framework for the construction of financial knowledge graphs (KG). We introduce FinReflectKG - EvalBench, a benchmark and evaluation framework for KG extraction from SEC 10-K filings. Building on the agentic and holistic evaluation principles of FinReflectKG - a financial KG linking audited triples to source chunks from S&P 100 filings and supporting single-pass, multi-pass, and reflection-agent-based extraction modes - EvalBench implements a deterministic commit-then-justify judging protocol with explicit bias controls, mitigating position effects, leniency, verbosity and world-knowledge reliance. Each candidate triple is evaluated with binary judgments of faithfulness, precision, and relevance, while comprehensiveness is assessed on a three-level ordinal scale (good, partial, bad) at the chunk level. Our findings suggest that, when equipped with explicit bias controls, LLM-as-Judge protocols provide a reliable and cost-efficient alternative to human annotation, while also enabling structured error analysis. Reflection-based extraction emerges as the superior approach, achieving best performance in comprehensiveness, precision, and relevance, while single-pass extraction maintains the highest faithfulness. By aggregating these complementary dimensions, FinReflectKG - EvalBench enables fine-grained benchmarking and bias-aware evaluation, advancing transparency and governance in financial AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されていない財務文書から構造化された知識を抽出するためにますます使われてきている。
従来,様々な抽出手法が検討されてきたが,財務知識グラフ(KG)構築のための普遍的なベンチマークや統一評価フレームワークは存在しない。
SEC 10-K ファイリングからの KG 抽出のためのベンチマークおよび評価フレームワークである FinReflectKG - EvalBench を紹介する。
FinReflectKG - 監査済みのトリプルをS&P 100のファイリングからソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする金融KG - のエージェント的かつ総合的な評価原則に基づいて構築されている。
各候補は、信頼度、精度、妥当性の2値判定で評価され、包括性は、チャンクレベルで3レベル(良い、部分的、悪い)で評価される。
以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率が向上し,構造的エラー解析が可能であることが示唆された。
反射に基づく抽出は優れたアプローチとして現れ、包括性、精度、妥当性において最高の性能を達成する一方、シングルパス抽出は最も忠実である。
これらの相補的な次元を集約することにより、FinReflectKG - EvalBenchは、きめ細かいベンチマークとバイアス対応の評価を可能にし、財務AIアプリケーションにおける透明性とガバナンスを向上する。
関連論文リスト
- Enhancing Credit Risk Prediction: A Meta-Learning Framework Integrating Baseline Models, LASSO, and ECOC for Superior Accuracy [7.254744067646655]
本研究では,複数の相補的モデルを合成する包括的メタラーニングフレームワークを提案する。
我々は,全ての構成モデルにまたがる予測クラスに対して,置換特徴重要度分析を実装した。
その結果,我々の枠組みは,財務組織分類の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-26T14:09:04Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - The Certainty Ratio $C_ρ$: a novel metric for assessing the reliability of classifier predictions [0.0]
本稿では,任意の分類性能指標に対する信頼性(確実性)と不確実性(不確実性)の寄与を定量化する新しい尺度であるCertainty Ratio(C_rho$)を紹介する。
21のデータセットと複数の分類器(Decision Trees、Naive-Bayes、 3-Nearest Neighbors、Random Forestsなど)にまたがる実験の結果、$C_rho$rhoは従来のメトリクスがしばしば見落としているという重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-11-04T10:50:03Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。