論文の概要: Merging Continual Pretraining Models for Domain-Specialized LLMs: A Case Study in Finance
- arxiv url: http://arxiv.org/abs/2511.02451v1
- Date: Tue, 04 Nov 2025 10:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.891802
- Title: Merging Continual Pretraining Models for Domain-Specialized LLMs: A Case Study in Finance
- Title(参考訳): ドメイン特化LDMの継続事前学習モデルの統合:財務を事例として
- Authors: Kentaro Ueda, François Portet, Hirohiko Suwa, Keiichi Yasumoto,
- Abstract要約: CPT(Continuous Pre-training)の融合は、コストがかかり不安定なマルチスキルトレーニングに代わる実用的な代替手段を提供する。
本稿では,知識の回復,相補性,創発性に着目した3段階評価を行い,3つの統合手法の評価を行う。
その結果、エキスパートをベースモデルにマージすることで、CPT中に失われた一般的な知識が回復し、専門家をマージすることでパフォーマンスが向上し、クロスドメインスキルが創発的になる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.82433450402665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs excel at general tasks, they struggle in specialized domains like finance, requiring diverse skills in domain knowledge, mathematical reasoning, and multilingual processing. Merging domain-specific Continual Pre-training (CPT) "experts" offers a practical alternative to costly and unstable multi-skill training. However, unlike established Supervised Fine-Tuning (SFT) model-based merging, CPT model merging remains largely unexplored. We address this gap by creating financial LLMs from experts in finance, math, and Japanese. We propose a three-stage evaluation focusing on knowledge recovery, complementarity, and emergence, and assess three merging methods (Task Arithmetic, TIES, and DARE-TIES) on a comprehensive financial benchmark curated from 18 tasks across 8 established datasets. Results show that merging an expert with its base model recovers general knowledge lost during CPT, while merging experts improves performance and can yield emergent cross-domain skills. Among the methods, Task Arithmetic performs strongly but is hyperparameter-sensitive, whereas TIES is more robust. Our findings also suggest that while model similarity correlates with merging success, emergent skills depend on more complex factors. This work presents the first foundational analysis of CPT model merging, establishing a principled framework and providing clear guidance for building multi-skill LLMs from existing assets.
- Abstract(参考訳): LLMは一般的なタスクでは優れているが、金融のような専門分野では苦労し、ドメイン知識、数学的推論、多言語処理の多様なスキルを必要としている。
CPT(Continuous Pre-training)をマージすることで、コストがかかり不安定なマルチスキルトレーニングに代わる現実的な代替手段を提供する。
しかし、確立されたスーパービジョンファインチューニング(SFT)モデルベースマージとは異なり、CPTモデルマージはほとんど探索されていない。
金融・数学・日本語の専門家から金融LLMを作成することで、このギャップに対処する。
本研究では,知識回復,相補性,創発性に着目した3段階評価を提案し,既存の8つのデータセットにまたがる18のタスクから算出した総合的な財務指標に基づいて,3つの統合手法(Task Arithmetic, TIES, DARE-TIES)を評価する。
その結果、エキスパートをベースモデルにマージすることで、CPT中に失われた一般的な知識が回復し、専門家をマージすることでパフォーマンスが向上し、クロスドメインスキルが創発的になる可能性が示唆された。
これらの手法の中で、タスク算術は強い性能を示すが、超パラメータに敏感であるのに対し、TIESはより堅牢である。
また,モデル類似性は合併の成功と相関するが,創発的スキルはより複雑な要因に依存することが示唆された。
本研究は,CPTモデルマージに関する最初の基礎的分析を行い,基本的枠組みを確立し,既存の資産からマルチスキルLLMを構築するための明確なガイダンスを提供する。
関連論文リスト
- FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - MASCA: LLM based-Multi Agents System for Credit Assessment [0.3277163122167434]
実世界の意思決定プロセスのミラー化による信用評価向上を目的とした,LLM駆動型マルチエージェントシステムMASCAを紹介する。
また,階層型マルチエージェントシステムにおけるシグナリングゲーム理論の視点を示し,その構造と相互作用に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-07-30T15:19:38Z) - FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [18.68776736676411]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。
認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。
実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文 参考訳(メタデータ) (2025-06-18T06:21:50Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [67.27279184423723]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - FinTeamExperts: Role Specialized MOEs For Financial Analysis [17.145985064776273]
我々は、金融分析のためのMixture of Experts (MOEs) として構成されたロール特化LDMフレームワークであるFinTeamExpertsを提示する。
このフレームワークは、マクロアナリスト、マイクロアナリスト、量的アナリストといった、異なる役割を専門とする各モデルをトレーニングすることで、協力的なチーム設定をシミュレートする。
我々は、異なるコーパス上の3つの8ビリオンパラメータモデルを訓練し、それぞれが特定の金融関連の役割に長けている。
論文 参考訳(メタデータ) (2024-10-28T00:40:55Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。