論文の概要: FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks
- arxiv url: http://arxiv.org/abs/2604.10015v2
- Date: Wed, 15 Apr 2026 16:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 16:10:33.689139
- Title: FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks
- Title(参考訳): FinTrace: 長期金融業務のためのLLMツールの全体的軌道レベル評価
- Authors: Yupeng Cao, Haohang Li, Weijin Liu, Wenbo Cao, Anke Xu, Lingfei Qian, Xueqing Peng, Minxue Tang, Zhiyuan Yao, Jimin Huang, K. P. Subbalakshmi, Zining Zhu, Jordan W. Suchow, Yangyang Yu,
- Abstract要約: FinTraceは、34の現実世界の金融タスクカテゴリにまたがる800のエキスパートアノテートトラジェクトリからなるベンチマークである。
FinTraceは、アクションの正しさ、実行効率、プロセスの品質、出力品質という、4つの軸に沿って整理された9つのメトリクスを備えたルーリックベースの評価プロトコルを採用している。
我々は、FinTrace-Trainingのトレーニングが中間推論の指標を継続的に改善し、DPOは障害モードをより効果的に抑制することを示した。
- 参考スコア(独自算出の注目度): 13.706233105785792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies demonstrate that tool-calling capability enables large language models (LLMs) to interact with external environments for long-horizon financial tasks. While existing benchmarks have begun evaluating financial tool calling, they focus on limited scenarios and rely on call-level metrics that fail to capture trajectory-level reasoning quality. To address this gap, we introduce FinTrace, a benchmark comprising 800 expert-annotated trajectories spanning 34 real-world financial task categories across multiple difficulty levels. FinTrace employs a rubric-based evaluation protocol with nine metrics organized along four axes -- action correctness, execution efficiency, process quality, and output quality -- enabling fine-grained assessment of LLM tool-calling behavior. Our evaluation of 13 LLMs reveals that while frontier models achieve strong tool selection, all models struggle with information utilization and final answer quality, exposing a critical gap between invoking the right tools and reasoning effectively over their outputs. To move beyond diagnosis, we construct FinTrace-Training, the first trajectory-level preference dataset for financial tool-calling, containing 8,196 curated trajectories with tool-augmented contexts and preference pairs. We fine-tune Qwen-3.5-9B using supervised fine-tuning followed by direct preference optimization (DPO) and show that training on FinTrace-Training consistently improves intermediate reasoning metrics, with DPO more effectively suppressing failure modes. However, end-to-end answer quality remains a bottleneck, indicating that trajectory-level improvements do not yet fully propagate to final output quality.
- Abstract(参考訳): 近年の研究では、ツールコール機能により、長期の金融業務において、大規模言語モデル(LLM)が外部環境と対話することができることが示されている。
既存のベンチマークでは、金融ツールの呼び出しの評価が始まっているが、限られたシナリオに重点を置いており、トラジェクトリレベルの推論品質の取得に失敗するコールレベルのメトリクスに依存している。
このギャップに対処するため、FinTraceは、専門家が注釈付けした800の軌跡からなるベンチマークで、34の現実世界の財務タスクカテゴリを複数の難易度で比較した。
FinTraceでは,アクションの正しさ,実行効率,プロセス品質,出力品質という4つの軸に沿って整理された9つのメトリクスを備えた,ルーリックベースの評価プロトコルを採用している。
13個のLCMを評価した結果,フロンティアモデルでは強力なツール選択が達成される一方で,全てのモデルが情報利用と最終回答品質に苦しむことが明らかとなった。
診断を超えて、FinTrace-Trainingを構築する。FinTrace-Trainingは、金融ツール呼び出しのための最初の軌道レベルの選好データセットであり、ツール拡張コンテキストと選好ペアを備えた8,196個のキュレートされたトラジェクトリを含む。
我々は、教師付き微調整と直接選好最適化(DPO)を用いてQwen-3.5-9Bを微調整し、FinTrace-Trainingのトレーニングは、障害モードをより効果的に抑制し、中間推論基準を一貫して改善することを示した。
しかし、エンド・ツー・エンドの回答の品質は依然としてボトルネックであり、トラジェクトリレベルの改善が最終的な出力品質に完全には達していないことを示している。
関連論文リスト
- Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models [10.04930078540686]
SCRIBEは、新しい中間レベルの抽象化に介入する強化学習フレームワークである。
さまざまな推論とツール使用ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-07T03:49:48Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis [21.091157331212493]
マルチモーダル大規模言語モデル(MLLM)は、動的実世界の要求に適応するために、訓練後のフェーズで連続的な命令チューニングを必要とする。
textbfMLLM-CTBenchは、6つの異なるドメインから7つの課題を3つのコントリビューションでキュレートしたデータセットである。
論文 参考訳(メタデータ) (2025-07-31T07:49:36Z) - Optimising Language Models for Downstream Tasks: A Post-Training Perspective [0.0]
言語モデル(LM)は、NLPにおいて顕著な能力を示している。
しかし、それらを効率的かつ堅牢に特定のタスクに適用することは、依然として困難である。
この論文は、下流アプリケーションにLMを適応させる一連の方法を提案する。
論文 参考訳(メタデータ) (2025-06-26T00:49:35Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。