論文の概要: QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs
- arxiv url: http://arxiv.org/abs/2512.24314v1
- Date: Tue, 30 Dec 2025 16:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.422717
- Title: QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs
- Title(参考訳): Qianfan Huijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs
- Authors: Shupeng Li, Weipeng Lu, Linyun Liu, Chen Lin, Shaofei Li, Zhendong Tan, Hanjun Zhong, Yucheng Zeng, Chenghao Zhu, Mengyue Liu, Daxiang Dong, Jianmin Wu, Yunting Xiao, Annan Li, Danyu Liu, Jingnan Zhang, Licen Liu, Dawei Yin, Dou Shen,
- Abstract要約: 本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。
我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。
金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
- 参考スコア(独自算出の注目度): 30.6564068779509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain-specific enhancement of Large Language Models (LLMs) within the financial context has long been a focal point of industrial application. While previous models such as BloombergGPT and Baichuan-Finance primarily focused on knowledge enhancement, the deepening complexity of financial services has driven a growing demand for models that possess not only domain knowledge but also robust financial reasoning and agentic capabilities. In this paper, we present QianfanHuijin, a financial domain LLM, and propose a generalizable multi-stage training paradigm for industrial model enhancement. Our approach begins with Continual Pre-training (CPT) on financial corpora to consolidate the knowledge base. This is followed by a fine-grained Post-training pipeline designed with increasing specificity: starting with Financial SFT, progressing to Finance Reasoning RL and Finance Agentic RL, and culminating in General RL aligned with real-world business scenarios. Empirical results demonstrate that QianfanHuijin achieves superior performance across various authoritative financial benchmarks. Furthermore, ablation studies confirm that the targeted Reasoning RL and Agentic RL stages yield significant gains in their respective capabilities. These findings validate our motivation and suggest that this fine-grained, progressive post-training methodology is poised to become a mainstream paradigm for various industrial-enhanced LLMs.
- Abstract(参考訳): 金融環境における大規模言語モデル(LLM)のドメイン固有化は、長い間産業的応用の焦点であった。
BloombergGPTやBaichuan-Financeといった以前のモデルは、主に知識の強化に重点を置いていたが、金融サービスの複雑さの深化は、ドメイン知識だけでなく、堅牢な財務推論とエージェント能力を持つモデルへの需要を増大させてきた。
本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。
我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。
ファイナンシャル・SFTから、ファイナンシャル・推論・RLとファイナンシャル・エージェント・RLに進み、現実のビジネスシナリオに合わせたジェネラル・RLに到達した。
実証的な結果は、Qianfan Huijinが様々な信頼できる財務ベンチマークで優れたパフォーマンスを達成していることを示している。
さらに, アブレーション研究により, 標的となるReasoning RLおよびAgenic RLは, それぞれの能力において有意な利得をもたらすことが確認された。
これらの知見は我々の動機を実証し、この細粒で進歩的なポストトレーニング手法が様々な産業用LLMの主流となることを示唆している。
関連論文リスト
- Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - A Review of Reinforcement Learning in Financial Applications [12.813502592542388]
強化学習(RL)は、金融における意思決定タスクを解決する大きな可能性を示している。
我々は、金融業界におけるRLの広範な活用を妨げる説明可能性、マルコフ決定プロセス(MDP)モデリング、ロバスト性などの課題を明らかにする。
本稿では,ベンチマーク,コンテキストRL,マルチエージェントRL,モデルベースRLなどの今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-11-01T01:03:10Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。