論文の概要: FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2510.06426v1
- Date: Tue, 07 Oct 2025 20:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.179895
- Title: FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
- Title(参考訳): FinLFQA:LLMの分散テキスト生成の評価
- Authors: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao,
- Abstract要約: FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
- 参考スコア(独自算出の注目度): 57.43420753842626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば長い形式の質問に幻覚を与える。
一般的な緩和戦略は、LCM出力への属性を提供することである。
しかし、既存のベンチマークは主に、テキストのエビデンスを参照として検索する単純な属性に焦点を当てている。
ファイナンシャル・アプリケーションのような現実世界のシナリオでは、属性は参照検索を超えていると論じる。
我々は、LLMの信頼性とニュアンスのある属性を持つ複雑な財務問題に対するロングフォームな回答を生成する能力を評価するために設計されたベンチマークであるFinLFQAを紹介する。
FinLFQAは,人的アノテーションによる帰属の3つの重要な側面を評価する。(1)財務報告から抽出された証拠の支援,(2)中間的数値推論ステップ,(3)推論過程を通知するドメイン固有の財務知識。
さらに、回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
複数の属性・ジェネレーション・パラダイムにまたがる8つのLCMに関する広範な実験を通して、モデル機能の識別にはきめ細かいメトリクスが重要であり、エンド・ツー・エンド・ジェネレーションはポスト・ホック・アプローチに匹敵する性能を達成し、反復的改善は外部からのフィードバックによってガイドされる場合にのみ有効であることがわかった。
関連論文リスト
- FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [18.68776736676411]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。
認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。
実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文 参考訳(メタデータ) (2025-06-18T06:21:50Z) - Extract, Match, and Score: An Evaluation Paradigm for Long Question-context-answer Triplets in Financial Analysis [13.92563557858618]
大規模言語モデル(LLM)は多様なアプリケーションで広く採用されている。
従来の評価基準は、長文回答の品質を評価する際に低下する。
これは特に、拡張された質問、広範囲なコンテキスト、ロングフォームな回答を含む現実世界のシナリオにおいて重要である。
本稿では,LLMの出力の複雑さに合わせて,効率的な抽出,マッチング,スコア(EMS)評価手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T09:38:44Z) - FinDVer: Explainable Claim Verification over Long and Hybrid-Content Financial Documents [30.402524394183857]
FinDVerには2,400のエキスパートアノテート例があり、情報抽出、数値推論、知識集約推論という3つのサブセットに分けられている。
以上の結果から,現在の最高性能システムであるGPT-4oでさえ,まだ人間の専門家より遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T18:26:17Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。