論文の概要: Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15202v1
- Date: Thu, 21 Aug 2025 03:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.164681
- Title: Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
- Title(参考訳): Fin-PRM:大規模言語モデルにおけるファイナンシャル推論のためのドメイン特化プロセスリワードモデル
- Authors: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang,
- Abstract要約: Fin-PRMは、金融タスクの中間的推論ステップを評価するために設計されたドメイン特化トラジェクトリ対応PRMである。
ステップレベルとトラジェクトリレベルの報酬管理を統合し、財務論理に整合した推論トレースのきめ細かい評価を可能にする。
我々は、Fin-PRMが軌道選択品質において汎用PRMと強力なドメインベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 12.415988471162997
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Process Reward Models (PRMs) have emerged as a promising framework for supervising intermediate reasoning in large language models (LLMs), yet existing PRMs are primarily trained on general or Science, Technology, Engineering, and Mathematics (STEM) domains and fall short in domain-specific contexts such as finance, where reasoning is more structured, symbolic, and sensitive to factual and regulatory correctness. We introduce \textbf{Fin-PRM}, a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate reasoning steps in financial tasks. Fin-PRM integrates step-level and trajectory-level reward supervision, enabling fine-grained evaluation of reasoning traces aligned with financial logic. We apply Fin-PRM in both offline and online reward learning settings, supporting three key applications: (i) selecting high-quality reasoning trajectories for distillation-based supervised fine-tuning, (ii) providing dense process-level rewards for reinforcement learning, and (iii) guiding reward-informed Best-of-N inference at test time. Experimental results on financial reasoning benchmarks, including CFLUE and FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs and strong domain baselines in trajectory selection quality. Downstream models trained with Fin-PRM yield substantial improvements with baselines, with gains of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in test-time performance. These findings highlight the value of domain-specialized reward modeling for aligning LLMs with expert-level financial reasoning. Our project resources will be available at https://github.com/aliyun/qwen-dianjin.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRMs) は、大規模言語モデル (LLMs) における中間的推論を監督するための有望なフレームワークとして登場したが、既存のPRMは一般的には科学、技術、工学、数学 (STEM) の領域で訓練されており、推論がより構造化され、象徴的であり、事実と規制の正しさに敏感である金融のようなドメイン固有の文脈では不足している。
金融タスクの中間的推論ステップを評価するために,ドメインに特化してトラジェクトリを意識したPRMである‘textbf{Fin-PRM} を導入する。
Fin-PRMは、ステップレベルとトラジェクトリレベルの報酬管理を統合し、財務論理と整合した推論トレースのきめ細かい評価を可能にする。
オフラインおよびオンライン両方の報酬学習設定にFin-PRMを適用し、3つの主要なアプリケーションをサポートする。
一 蒸留法に基づく微調整のための高品質な推理軌道を選択すること。
二 強化学習のための密集したプロセスレベルの報酬の提供、及び
三 試験時に報奨インフォームドベストオブN推論を導出すること。
CFLUEやFinQAといった金融推論ベンチマークの実験結果から、Fin-PRMは汎用PRMと強力なドメインベースラインをトラジェクティブ選択品質で一貫して上回ることを示した。
Fin-PRMでトレーニングされた下流モデルはベースラインで大幅に改善され、教師あり学習では12.9倍、強化学習では5.2倍、テスト時間性能では5.1倍となる。
これらの知見は, LLMとエキスパートレベルの財務的推論を整合させるためのドメイン特化報酬モデルの価値を浮き彫りにした。
プロジェクトリソースはhttps://github.com/aliyun/qwen-dianjin.comで公開されます。
関連論文リスト
- Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models [13.567516575993546]
金融分野における大規模言語モデル(LLM)の推論強化フレームワークであるDianJin-R1を提案する。
我々のアプローチの中心は、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットであるDianJin-R1-Dataである。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
論文 参考訳(メタデータ) (2025-04-22T09:01:04Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究である
このアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。
結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-09T04:26:15Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。