論文の概要: Program of Thoughts for Financial Reasoning: Leveraging Dynamic In-Context Examples and Generative Retrieval
- arxiv url: http://arxiv.org/abs/2510.13157v1
- Date: Wed, 15 Oct 2025 05:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.503834
- Title: Program of Thoughts for Financial Reasoning: Leveraging Dynamic In-Context Examples and Generative Retrieval
- Title(参考訳): 金融推論のための思考プログラム:動的インコンテキスト事例の活用と生成検索
- Authors: Subhendu Khatuya, Shashwat Naidu, Pawan Goyal, Niloy Ganguly,
- Abstract要約: 金融数値推論を強化するための新しい2段階フレームワークであるFINDERを紹介する。
最初のステップでは、生成検索を使用して、テキストとテーブルの両方を含む非構造化データから関連する事実を抽出する。
その後、文脈認識型思考プログラムが、文脈内サンプルの動的選択を促す。
我々のモデルであるFINDERは、FinQAとConvFinQAの両方のデータセット上で、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 28.84398417293526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite continuous advancements in the capabilities of large language models (LLMs), numerical reasoning remains a challenging area. Techniques like chain-of-thought prompting, tree-of-thought prompting, and program-of-thought prompting guide LLMs through intermediate reasoning steps. Although in-context learning with few-shot prompting has improved performance, LLMs still lag behind state-of-the-art models on financial numerical reasoning datasets such as FinQA and ConvFinQA. In this work, we introduce FINDER, a novel two-step framework, to enhance LLMs' capabilities in financial numerical reasoning. The first step utilizes a generative retriever to extract relevant facts from unstructured data, including both text and tables. This is followed by context-aware Program of Thought prompting with dynamic selection of in-context examples. Our model FINDER achieves a new state-of-the-art performance on both the FinQA and ConvFinQA datasets, surpassing previous benchmarks with execution accuracy improvements of 5.98% and 4.05%, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力の継続的な進歩にもかかわらず、数値推論は依然として困難な領域である。
チェーン・オブ・シークレット・プロンプト、ツリー・オブ・シークレット・プロンプト、プログラム・オブ・シークレット・プロンプトといったテクニックは、中間的推論ステップを通じてガイドLSMをプロンプトする。
しかし、LLMはFinQAやConvFinQAといった金融数値推論データセットの最先端モデルに遅れを取っている。
本研究では,金融数値推論におけるLLMの能力を高めるために,新たな2段階フレームワークであるFINDERを紹介する。
最初のステップでは、生成検索を使用して、テキストとテーブルの両方を含む非構造化データから関連する事実を抽出する。
その後、文脈認識型思考プログラムが、文脈内サンプルの動的選択を促す。
我々のモデルであるFINDERは、FinQAデータセットとConvFinQAデータセットの両方で、それぞれ5.98%と4.05%の精度で以前のベンチマークを上回り、最先端のパフォーマンスを実現しています。
関連論文リスト
- FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis [21.091157331212493]
マルチモーダル大規模言語モデル(MLLM)は、動的実世界の要求に適応するために、訓練後のフェーズで連続的な命令チューニングを必要とする。
textbfMLLM-CTBenchは、6つの異なるドメインから7つの課題を3つのコントリビューションでキュレートしたデータセットである。
論文 参考訳(メタデータ) (2025-07-31T07:49:36Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。