Fugu-MT 論文翻訳(概要): FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

論文の概要: FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

arxiv url: http://arxiv.org/abs/2506.02515v2
Date: Fri, 17 Oct 2025 17:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 15:58:54.371926
Title: FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
Title（参考訳）: FinChain: 検証可能なチェーン・オブ・サード・ファイナンシャル・推論のためのシンボリックベンチマーク
Authors: Zhuohan Xie, Daniil Orel, Rushil Thareja, Dhruv Sahnan, Hachem Madmoun, Fan Zhang, Debopriyo Banerjee, Georgi Georgiev, Xueqing Peng, Lingfei Qian, Jimin Huang, Jinyan Su, Aaryamonvikram Singh, Rui Xing, Rania Elbadry, Chen Xu, Haonan Li, Fajri Koto, Ivan Koychev, Tanmoy Chakraborty, Yuxia Wang, Salem Lahlou, Veselin Stoyanov, Sophia Ananiadou, Preslav Nakov,
Abstract要約: FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。 12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。 FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
参考スコア（独自算出の注目度）: 82.7292329605713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-step symbolic reasoning is essential for robust financial analysis; yet, current benchmarks largely overlook this capability. Existing datasets such as FinQA and ConvFinQA emphasize final numerical answers while neglecting the intermediate reasoning required for transparency and verification. To address this gap, we introduce FinChain, the first benchmark specifically designed for verifiable Chain-of-Thought (CoT) evaluation in finance. FinChain spans 58 topics across 12 financial domains, each represented by parameterized symbolic templates with executable Python traces that enable fully machine-verifiable reasoning and scalable, contamination-free data generation. To assess reasoning capacity, we propose ChainEval, a dynamic alignment metric that jointly evaluates both the final-answer correctness and the step-level reasoning consistency. Evaluating 26 leading LLMs reveals that even frontier proprietary systems exhibit clear limitations in symbolic financial reasoning, while domain-adapted and math-enhanced fine-tuned models substantially narrow this gap. Overall, FinChain exposes persistent weaknesses in multi-step financial reasoning and provides a foundation for developing trustworthy, interpretable, and verifiable financial AI.
Abstract（参考訳）: 堅牢な財務分析には多段階の象徴的推論が不可欠である。 FinQAやConvFinQAといった既存のデータセットは、透明性と検証に必要な中間的推論を無視しながら、最終的な数値的な答えを強調している。このギャップに対処するために、ファイナンスで検証可能なChain-of-Thought(CoT)評価のために特別に設計された最初のベンチマークであるFinChainを紹介します。 FinChainは12の金融ドメインにわたる58のトピックにまたがっており、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースによって表現され、完全にマシン検証可能な推論とスケーラブルで汚染のないデータ生成を可能にする。推論能力を評価するために,最終回答の正しさと段階レベルの推論整合性の両方を共同で評価する動的アライメント指標ChainEvalを提案する。 26個のLLMを評価したところ、フロンティアのプロプライエタリなシステムでさえ、象徴的な金銭的推論において明確な制限を示す一方で、ドメイン適応型および数学強化された微調整モデルがこのギャップを著しく狭めていることが明らかとなった。全体として、FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。

関連論文リスト

Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning [11.522192050185568]
大規模言語モデルは,「認知的幻覚」と「認知的崩壊」というシステム的失敗モードに悩まされる実世界95の中国Aシェア年次レポートから構築したデータセットをベースとした,堅牢な評価フレームワークであるCognitive Complexity Benchmark(CCB)を紹介する。本稿では,これらの障害に対処するための反復的デュアル・パース・ファイナンシャル・PoTフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T01:33:33Z)
FinForge: Semi-Synthetic Financial Benchmark Generation [4.3298251304921775]
FinForgeは、金融特化評価ベンチマークを構築するための、スケーラブルで半合成的なパイプラインである。我々はFinForge-5kというベンチマークを作成した。これは11のファイナンスにまたがる5000以上の質問応答対からなるベンチマークベンチマークである。 FinForge-5kは金銭的推論に大きな違いを示し、主要なモデルは80%近い精度で達成されている。
論文参考訳（メタデータ） (2026-01-11T01:38:33Z)
UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。 UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。 Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文参考訳（メタデータ） (2026-01-09T10:15:32Z)
FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。われわれのモデルは、主要な金融指標を総合的に評価している。
論文参考訳（メタデータ） (2025-07-22T17:52:16Z)
FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文参考訳（メタデータ） (2025-05-31T03:50:19Z)
Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。 FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文参考訳（メタデータ） (2025-05-26T02:41:50Z)
Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach [6.911426601915051]
本稿では、金融特化文脈におけるAIモデル、特に大規模言語とマルチモーダルモデルがどの程度の理由を持つかを評価するために設計された新しいベンチマークを紹介する。本稿では,過去のモデル誤りやフィードバックを利用して,微調整を必要とせず,推論をガイドする誤り認識学習フレームワークを提案する。この結果は、視覚的理解と数学的論理学における永続的な課題を強調し、金融AIシステムにおける自己反射的推論の可能性を実証している。
論文参考訳（メタデータ） (2025-04-22T07:25:03Z)
DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [6.275468311396066]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。 DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文参考訳（メタデータ） (2025-04-18T16:40:39Z)
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。 FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文参考訳（メタデータ） (2025-02-26T05:19:16Z)
Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究であるこのアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-09T04:26:15Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [18.280762424107408]
FinTralは、Mistral-7bモデルに基づいて構築された、最先端のマルチモーダル言語モデル(LLM)のスイートである。我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文参考訳（メタデータ） (2024-02-16T05:05:12Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
FinTree: Financial Dataset Pretrain Transformer Encoder for Relation Extraction [0.0]
ファイナンシャルデータセット上でFinTreeを事前トレーニングし、財務タスクのモデルを適用します。 FinTreeは、従来のドメイントークンの代わりにマスク付きトークンを予測する新しい構造で際立っている。我々の実験は、FinTreeが大規模な財務関係抽出データセットであるREFinDより優れていることを示した。
論文参考訳（メタデータ） (2023-07-26T01:48:52Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。