論文の概要: Improved LLM Agents for Financial Document Question Answering
- arxiv url: http://arxiv.org/abs/2506.08726v1
- Date: Tue, 10 Jun 2025 12:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.378408
- Title: Improved LLM Agents for Financial Document Question Answering
- Title(参考訳): 財務文書質問応答のためのLCMエージェントの改良
- Authors: Nelvin Tan, Zian Seng, Liang Zhang, Yu-Ching Shih, Dong Yang, Amol Salunkhe,
- Abstract要約: 大規模言語モデル(LLM)は、財務文書に対する数値的な質問応答に苦慮している。
近年の研究では、オラクルラベルを付与したタスクに対する批判的エージェント(自己補正)の有効性が示されている。
本稿では,オラクルラベルが利用できない場合の従来の批評家エージェントの有効性について検討する。
従来の最先端の手法よりも優れた計算機エージェントとともに、改良された批評家エージェントを提示する。
- 参考スコア(独自算出の注目度): 6.937325480027221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive capabilities on numerous natural language processing tasks. However, LLMs still struggle with numerical question answering for financial documents that include tabular and textual data. Recent works have showed the effectiveness of critic agents (i.e., self-correction) for this task given oracle labels. Building upon this framework, this paper examines the effectiveness of the traditional critic agent when oracle labels are not available, and show, through experiments, that this critic agent's performance deteriorates in this scenario. With this in mind, we present an improved critic agent, along with the calculator agent which outperforms the previous state-of-the-art approach (program-of-thought) and is safer. Furthermore, we investigate how our agents interact with each other, and how this interaction affects their performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的な機能を示している。
しかし、LLMは表やテキストデータを含む財務文書の数値的な回答に苦慮している。
近年の研究では、オラクルラベルを付与したタスクに対する批判的エージェント(自己補正)の有効性が示されている。
本稿では,本枠組みを基礎として,オラクルラベルが利用できない場合の従来の批評家エージェントの有効性を検証し,実験を通じて,この批判エージェントの性能が低下していることを示す。
これを念頭に置いて、従来の最先端のアプローチ(プログラミング・オブ・思想)より優れ、より安全である計算機エージェントとともに、改良された批評家エージェントを提示する。
さらに,我々のエージェントが相互にどのように相互作用し,その相互作用がパフォーマンスに与える影響について検討する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。