論文の概要: FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation
- arxiv url: http://arxiv.org/abs/2510.05710v1
- Date: Tue, 07 Oct 2025 09:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.180592
- Title: FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation
- Title(参考訳): FinReflectKG - EvalBench:多次元評価による財務KGのベンチマーク
- Authors: Fabrizio Dimino, Abhinav Arun, Bhaskarjit Sarmah, Stefano Pasquali,
- Abstract要約: FinReflectKG - EvalBenchは金融知識グラフのベンチマークおよび評価フレームワークである。
監査済みのトリプルをS&P 100ファイルのソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする。
以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率のよい代替手段となることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly being used to extract structured knowledge from unstructured financial text. Although prior studies have explored various extraction methods, there is no universal benchmark or unified evaluation framework for the construction of financial knowledge graphs (KG). We introduce FinReflectKG - EvalBench, a benchmark and evaluation framework for KG extraction from SEC 10-K filings. Building on the agentic and holistic evaluation principles of FinReflectKG - a financial KG linking audited triples to source chunks from S&P 100 filings and supporting single-pass, multi-pass, and reflection-agent-based extraction modes - EvalBench implements a deterministic commit-then-justify judging protocol with explicit bias controls, mitigating position effects, leniency, verbosity and world-knowledge reliance. Each candidate triple is evaluated with binary judgments of faithfulness, precision, and relevance, while comprehensiveness is assessed on a three-level ordinal scale (good, partial, bad) at the chunk level. Our findings suggest that, when equipped with explicit bias controls, LLM-as-Judge protocols provide a reliable and cost-efficient alternative to human annotation, while also enabling structured error analysis. Reflection-based extraction emerges as the superior approach, achieving best performance in comprehensiveness, precision, and relevance, while single-pass extraction maintains the highest faithfulness. By aggregating these complementary dimensions, FinReflectKG - EvalBench enables fine-grained benchmarking and bias-aware evaluation, advancing transparency and governance in financial AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されていない財務文書から構造化された知識を抽出するためにますます使われてきている。
従来,様々な抽出手法が検討されてきたが,財務知識グラフ(KG)構築のための普遍的なベンチマークや統一評価フレームワークは存在しない。
SEC 10-K ファイリングからの KG 抽出のためのベンチマークおよび評価フレームワークである FinReflectKG - EvalBench を紹介する。
FinReflectKG - 監査済みのトリプルをS&P 100のファイリングからソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする金融KG - のエージェント的かつ総合的な評価原則に基づいて構築されている。
各候補は、信頼度、精度、妥当性の2値判定で評価され、包括性は、チャンクレベルで3レベル(良い、部分的、悪い)で評価される。
以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率が向上し,構造的エラー解析が可能であることが示唆された。
反射に基づく抽出は優れたアプローチとして現れ、包括性、精度、妥当性において最高の性能を達成する一方、シングルパス抽出は最も忠実である。
これらの相補的な次元を集約することにより、FinReflectKG - EvalBenchは、きめ細かいベンチマークとバイアス対応の評価を可能にし、財務AIアプリケーションにおける透明性とガバナンスを向上する。
関連論文リスト
- A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。
本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。
これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文 参考訳(メタデータ) (2025-12-28T16:25:12Z) - FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection [0.0]
FinVetは2つのRetrieval-Augmented Generationパイプラインと外部ファクトチェックを統合する新しいフレームワークである。
証拠に裏付けられた評決、情報源の属性、信頼度スコア、証拠が不十分な場合に明確な不確実性フラグを提供する。
論文 参考訳(メタデータ) (2025-10-13T17:31:49Z) - Enhancing Credit Risk Prediction: A Meta-Learning Framework Integrating Baseline Models, LASSO, and ECOC for Superior Accuracy [7.254744067646655]
本研究では,複数の相補的モデルを合成する包括的メタラーニングフレームワークを提案する。
我々は,全ての構成モデルにまたがる予測クラスに対して,置換特徴重要度分析を実装した。
その結果,我々の枠組みは,財務組織分類の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-26T14:09:04Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Probabilistically Tightened Linear Relaxation-based Perturbation Analysis for Neural Network Verification [83.25968588249776]
本稿では,LiRPAに基づく手法とサンプリングに基づく手法を組み合わせることで,厳密な中間到達性集合を計算できる新しいフレームワークを提案する。
無視可能な計算オーバーヘッドでは、$textttPT-LiRPA$は推定された到達可能な集合を利用し、ニューラルネットワークの出力の上下線形境界を著しく締め付ける。
論文 参考訳(メタデータ) (2025-07-07T18:45:53Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - The Certainty Ratio $C_ρ$: a novel metric for assessing the reliability of classifier predictions [0.0]
本稿では,任意の分類性能指標に対する信頼性(確実性)と不確実性(不確実性)の寄与を定量化する新しい尺度であるCertainty Ratio(C_rho$)を紹介する。
21のデータセットと複数の分類器(Decision Trees、Naive-Bayes、 3-Nearest Neighbors、Random Forestsなど)にまたがる実験の結果、$C_rho$rhoは従来のメトリクスがしばしば見落としているという重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-11-04T10:50:03Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。