論文の概要: Time Series Augmented Generation for Financial Applications
- arxiv url: http://arxiv.org/abs/2604.19633v1
- Date: Tue, 21 Apr 2026 16:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.866457
- Title: Time Series Augmented Generation for Financial Applications
- Title(参考訳): ファイナンシャル・アプリケーションのための時系列拡張世代
- Authors: Anton Kolonin, Alexey Glushchenko, Evgeny Bochkov, Abhishek Saxena,
- Abstract要約: 本稿では,金融時系列分析のためのエージェントの推論を厳格に評価するための新しい評価手法とベンチマークを提案する。
本手法を我々のフレームワークであるTime Series Augmented Generationを用いた大規模実証研究に適用する。
その結果,幻覚を最小限に抑えることで,ほぼ完璧な道具使用精度を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.10499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the reasoning capabilities of Large Language Models (LLMs) for complex, quantitative financial tasks is a critical and unsolved challenge. Standard benchmarks often fail to isolate an agent's core ability to parse queries and orchestrate computations. To address this, we introduce a novel evaluation methodology and benchmark designed to rigorously measure an LLM agent's reasoning for financial time-series analysis. We apply this methodology in a large-scale empirical study using our framework, Time Series Augmented Generation (TSAG), where an LLM agent delegates quantitative tasks to verifiable, external tools. Our benchmark, consisting of 100 financial questions, is used to compare multiple SOTA agents (e.g., GPT-4o, Llama 3, Qwen2) on metrics assessing tool selection accuracy, faithfulness, and hallucination. The results demonstrate that capable agents can achieve near-perfect tool-use accuracy with minimal hallucination, validating the tool-augmented paradigm. Our primary contribution is this evaluation framework and the corresponding empirical insights into agent performance, which we release publicly to foster standardized research on reliable financial AI.
- Abstract(参考訳): 複雑で定量的な財務タスクに対するLLM(Large Language Models)の推論能力を評価することは、決定的かつ未解決の課題である。
標準的なベンチマークでは、クエリを解析し、計算をオーケストレーションするエージェントの中核的な能力の分離に失敗することが多い。
そこで本稿では,LLMエージェントの財務時系列分析に対する推論を厳格に評価するための,新たな評価手法とベンチマークを提案する。
この手法を我々のフレームワークであるTSAG(Time Series Augmented Generation)を用いて大規模な実証研究に適用し、LLMエージェントが定量的タスクを検証可能な外部ツールに委譲する。
本ベンチマークでは,複数のSOTAエージェント(GPT-4o,Llama 3, Qwen2)を比較し,ツールの選択精度,忠実度,幻覚度を評価する。
その結果,有能なエージェントが最小限の幻覚でほぼ完璧な道具使用精度を達成できることが示され,ツール拡張パラダイムが検証された。
私たちの主な貢献は、この評価フレームワークとエージェントのパフォーマンスに関する実証的な洞察であり、信頼できる金融AIに関する標準化された研究を促進するために公開しています。
関連論文リスト
- FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol [25.065258058016052]
FinMCP-Benchは、大規模言語モデル(LLM)を評価するためのベンチマークである。
65のリアルファイナンシャルMPPと3種類のサンプル、シングルツール、マルチツール、マルチターンが組み込まれており、タスクの複雑さの異なるレベルにわたるモデルの評価を可能にしている。
論文 参考訳(メタデータ) (2026-03-26T02:20:04Z) - FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use [11.47696602663462]
FinToolBenchは、金融ツール学習エージェントの評価に特化した、世界初の実世界の実行可能なベンチマークである。
本稿では,2次実行の成功を超えて,金融クリティカルな側面におけるエージェントの評価を行う新しい評価フレームワークを提案する。
FATRは、安定とコンプライアンスを高めるための金融対応ツール検索および推論ベースラインである。
論文 参考訳(メタデータ) (2026-03-09T11:33:05Z) - Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs [21.656551146954587]
大規模言語モデル(LLM)は自動化への道筋を提供する。
190の企業レポートから,新たな構造化データセットを導入する。
その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-12-30T15:28:03Z) - Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-12-01T21:56:21Z) - CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。