論文の概要: A Role-Aware Multi-Agent Framework for Financial Education Question Answering with LLMs
- arxiv url: http://arxiv.org/abs/2509.09727v1
- Date: Wed, 10 Sep 2025 09:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.859055
- Title: A Role-Aware Multi-Agent Framework for Financial Education Question Answering with LLMs
- Title(参考訳): LLMを用いた財務教育質問応答のための役割意識型マルチエージェントフレームワーク
- Authors: Andy Zhu, Yingjun Du,
- Abstract要約: 本稿では,ドメイン固有のQAの性能向上のために,ロールベースのプロンプトを活用するマルチエージェントフレームワークを提案する。
私たちのフレームワークは、ベースジェネレータ、エビデンスレトリバー、そして、洗練された回答を生成するためにシングルパスイテレーションで動作するExpert Reviewerエージェントで構成されています。
- 参考スコア(独自算出の注目度): 8.842756364986704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) plays a central role in financial education, yet existing large language model (LLM) approaches often fail to capture the nuanced and specialized reasoning required for financial problem-solving. The financial domain demands multistep quantitative reasoning, familiarity with domain-specific terminology, and comprehension of real-world scenarios. We present a multi-agent framework that leverages role-based prompting to enhance performance on domain-specific QA. Our framework comprises a Base Generator, an Evidence Retriever, and an Expert Reviewer agent that work in a single-pass iteration to produce a refined answer. We evaluated our framework on a set of 3,532 expert-designed finance education questions from Study.com, an online learning platform. We leverage retrieval-augmented generation (RAG) for contextual evidence from 6 finance textbooks and prompting strategies for a domain-expert reviewer. Our experiments indicate that critique-based refinement improves answer accuracy by 6.6-8.3% over zero-shot Chain-of-Thought baselines, with the highest performance from Gemini-2.0-Flash. Furthermore, our method enables GPT-4o-mini to achieve performance comparable to the finance-tuned FinGPT-mt_Llama3-8B_LoRA. Our results show a cost-effective approach to enhancing financial QA and offer insights for further research in multi-agent financial LLM systems.
- Abstract(参考訳): 質問応答(QA)は金融教育において中心的な役割を担っているが、既存の大規模言語モデル(LLM)アプローチは、金融問題解決に必要な曖昧で特殊な推論を捉えるのに失敗することが多い。
金融ドメインは、多段階の量的推論、ドメイン固有の用語への親しみ、現実のシナリオの理解を必要とする。
本稿では,ドメイン固有のQAの性能向上のために,ロールベースのプロンプトを活用するマルチエージェントフレームワークを提案する。
私たちのフレームワークは、ベースジェネレータ、エビデンスレトリバー、そして、洗練された回答を生成するためにシングルパスイテレーションで動作するExpert Reviewerエージェントで構成されています。
我々は,オンライン学習プラットフォームであるStudio.comから,3,532人の専門家が設計した金融教育に関する質問に対して,我々の枠組みを評価した。
我々は,6つの財務教科書の文脈証拠として検索強化世代(RAG)を活用し,ドメインエキスパートレビュアーの戦略を推し進める。
評価実験の結果,ゼロショットのチェイン・オブ・ソートベースラインよりも6.6~8.3%精度が向上し,Gemini-2.0-Flashよりも高い性能を示した。
さらに,GPT-4o-miniはFinGPT-mt_Llama3-8B_LoRAに匹敵する性能を実現する。
本研究は,金融QA向上のための費用対効果を示すとともに,マルチエージェント型金融LLMシステムにおけるさらなる研究への洞察を提供するものである。
関連論文リスト
- Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models [12.415988471162997]
Fin-PRMは、金融タスクの中間的推論ステップを評価するために設計されたドメイン特化トラジェクトリ対応PRMである。
ステップレベルとトラジェクトリレベルの報酬管理を統合し、財務論理に整合した推論トレースのきめ細かい評価を可能にする。
我々は、Fin-PRMが軌道選択品質において汎用PRMと強力なドメインベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-21T03:31:11Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおけるマルチステップ推論による検索評価のための最初の大規模ベンチマークである。
このベンチマークは、S&P-100上場企業に関する専門家による3,429の例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III [0.0]
本稿では,CFA(Chartered Financial Analyst)レベルIII試験において,23の最先端のLarge Language Models (LLMs)を評価するベンチマークを提案する。
我々は,複数選択質問(MCQ)とエッセイスタイル回答の両方を,Chain-of-ThoughtやSelf-Discoverといった複数のプロンプト戦略を用いて評価する。
CFAレベルIIIでは79.1% (o4-mini) と77.3% (Gemini 2.5 Flash) の複合スコアが得られた。
論文 参考訳(メタデータ) (2025-06-29T19:54:57Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [18.821122274064116]
FAMMA(Underlinefininlineancial underlinemultilingual underlinemultimodal question underlineanswering, QA)のオープンソースベンチマークを紹介する。
本ベンチマークは,高度な財務知識を必要とする複雑な推論問題に対して,大規模言語モデル(LLM)の能力を評価することを目的とする。
論文 参考訳(メタデータ) (2024-10-06T15:41:26Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。