論文の概要: DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.15716v1
- Date: Tue, 22 Apr 2025 09:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:24:50.020949
- Title: DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
- Title(参考訳): DianJin-R1:大規模言語モデルにおける財務推論の評価と強化
- Authors: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang,
- Abstract要約: 金融分野における大規模言語モデル(LLM)の推論強化フレームワークであるDianJin-R1を提案する。
我々のアプローチの中心は、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットであるDianJin-R1-Dataである。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
- 参考スコア(独自算出の注目度): 13.567516575993546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective reasoning remains a core challenge for large language models (LLMs) in the financial domain, where tasks often require domain-specific knowledge, precise numerical calculations, and strict adherence to compliance rules. We propose DianJin-R1, a reasoning-enhanced framework designed to address these challenges through reasoning-augmented supervision and reinforcement learning. Central to our approach is DianJin-R1-Data, a high-quality dataset constructed from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance Check, CCC), combining diverse financial reasoning scenarios with verified annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that generates both reasoning steps and final answers. To further refine reasoning quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement learning method that incorporates dual reward signals: one encouraging structured outputs and another rewarding answer correctness. We evaluate our models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental results show that DianJin-R1 models consistently outperform their non-reasoning counterparts, especially on complex financial tasks. Moreover, on the real-world CCC dataset, our single-call reasoning models match or even surpass the performance of multi-agent systems that require significantly more computational cost. These findings demonstrate the effectiveness of DianJin-R1 in enhancing financial reasoning through structured supervision and reward-aligned learning, offering a scalable and practical solution for real-world applications.
- Abstract(参考訳): 金融分野では、タスクはドメイン固有の知識、正確な数値計算、コンプライアンス規則の厳格な遵守を必要とすることが多い。
DianJin-R1は、これらの課題に、推論強化された監督と強化学習を通して対処するために設計された、推論強化フレームワークである。
DianJin-R1-Dataは、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットで、さまざまな財務的推論シナリオと検証済みアノテーションを組み合わせています。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
そこで我々は,2つの報酬信号を含む強化学習手法であるグループ相対政策最適化(GRPO)を適用した。
3つのファイナンシャルデータセット(CFLUE, FinQA, CCC)と2つの一般的な推論ベンチマーク(MATH-500, GPQA-Diamond)である。
実験結果から、DianJin-R1モデルは、特に複雑な財務タスクにおいて、不合理なモデルよりも一貫して優れていることが示された。
さらに、実世界のCCCデータセットでは、我々のシングルコール推論モデルは、計算コストが大幅に高いマルチエージェントシステムの性能にマッチするか、さらに上回っている。
これらの結果から,DianJin-R1は,実世界のアプリケーションにスケーラブルで実用的なソリューションを提供することで,構造化された監督と報酬整合学習による金銭的推論の強化に有効であることが示唆された。
関連論文リスト
- Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RKEFino1: A Regulation Knowledge-Enhanced Large Language Model [3.3128149968030436]
我々は、Fino上に構築された規制知識強化型金融推論モデルであるRKEFinoを提案する。
本稿では,2つのQAタスクと数理推論を定式化し,文と表の両方の財務要素をカバーする新しい数値的NERタスクを導入する。
コンプライアンスクリティカルな財務課題におけるRKEFino1の有効性と一般化能力について実験的に検証した。
論文 参考訳(メタデータ) (2025-06-06T03:02:52Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning [62.88540902786668]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning [17.649686407321923]
我々は金融セクター向けに特別に設計された大規模言語モデルであるFin-R1を紹介する。
Fin-R1は2段階アーキテクチャを使用して構築され、DeepSeek-R1に基づいて蒸留および処理された金銭的推論データセットを活用する。
これはDeepSeek-R1に近いパフォーマンスを示し、パラメータサイズは70億で、さまざまな金銭的推論タスクにまたがっている。
論文 参考訳(メタデータ) (2025-03-20T15:46:18Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - FinMTEB: Finance Massive Text Embedding Benchmark [18.990655668481075]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance [32.516564836540745]
大規模言語モデル(LLM)は、強力な一般的な推論能力を示しているが、財務的推論におけるその効果はいまだに解明されていない。
我々は,4つの複雑な財務推論タスクにおいて,24の最先端の一般および推論に焦点を当てたLCMを評価した。
本稿では,Fino1-8BとFinoBの2つのドメイン適応モデルを提案する。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - FinGPT: Instruction Tuning Benchmark for Open-Source Large Language
Models in Financial Datasets [9.714447724811842]
本稿では,オープンソースの大規模言語モデルに対して,インストラクションチューニングパラダイムに固有のアプローチを導入する。
私たちは、オープンソースのモデルの相互運用性に乗じて、シームレスで透過的な統合を確保します。
本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案し,費用対効果を生かした。
論文 参考訳(メタデータ) (2023-10-07T12:52:58Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。