論文の概要: The Data Efficiency Frontier of Financial Foundation Models: Scaling Laws from Continued Pretraining
- arxiv url: http://arxiv.org/abs/2512.12384v1
- Date: Sat, 13 Dec 2025 16:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.240762
- Title: The Data Efficiency Frontier of Financial Foundation Models: Scaling Laws from Continued Pretraining
- Title(参考訳): ファイナンシャル・ファンデーション・モデルにおけるデータ効率のフロンティア--継続事前訓練による法則のスケーリング
- Authors: Jesse Ponnock,
- Abstract要約: ドメイン適応型事前学習(DAPT)は、完全な再訓練をせずに、高価値ドメインのための大規模言語モデルを専門化するための実践的なパスを提供する。
我々は米国証券取引委員会(SEC)の書類で継続事前トレーニングに関する初期段階のスケーリング法分析を実施している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-adaptive pretraining (DAPT) offers a practical path to specializing large language models for high-value domains without full retraining. We conduct an early-stage scaling-law analysis of continued pretraining on U.S. SEC filings, training 1B and 3B-parameter Llama-3.2 models on a 400M-token financial corpus with validation checkpoints at 50M, 100M, 200M, and 400M tokens. Results show consistent improvements in SEC-domain validation loss for both models, with the largest gains occurring within the first 200M tokens and diminishing returns thereafter. Power-law fits reveal shallow exponents, indicating that financial language is highly regular and efficiently learnable under continued pretraining. General-domain validation loss remains effectively unchanged across all token budgets, suggesting minimal drift and no signs of catastrophic forgetting. A data-efficiency frontier further shows that both models move toward improved specialization with negligible mixed-domain degradation. Together, these findings provide early empirical guidance for scaling financial foundation models, suggesting that meaningful domain adaptation can be achieved with comparatively modest token budgets and that larger model scales (7B-70B) remain tractable under projected data requirements.
- Abstract(参考訳): ドメイン適応型事前学習(DAPT)は、完全な再訓練をせずに、高価値ドメインのための大規模言語モデルを専門化するための実践的なパスを提供する。
我々は、米国証券取引委員会(SEC)に提出された1Bおよび3BパラメータのLlama-3.2モデルの事前トレーニングを、500M、100M、200M、400Mの検証チェックポイントを持つ400Mの金融コーパスで早期に実施する。
その結果、両モデルのSECドメインバリデーション損失は一貫して改善され、最初の2億トークン内で最大のゲインが発生し、その後はリターンが低下した。
パワーロー・フィットは浅い指数を示し、金融言語は非常に規則的で、継続的な事前訓練の下で効率的に学習可能であることを示している。
一般ドメイン検証の損失は、すべてのトークン予算で効果的に変化せず、最小限のドリフトと破滅的な忘れの兆候がないことを示唆している。
データ効率のフロンティアは、どちらのモデルも無視可能な混合ドメイン分解による特殊化の改善に向かっていることを示している。
これらの知見は、金融基盤モデルのスケーリングに関する初期の実証的なガイダンスを提供し、比較的穏やかなトークン予算で有意義なドメイン適応が達成でき、また、より大きなモデルスケール(7B-70B)が、予測されたデータ要件の下でも引き出せることを示唆している。
関連論文リスト
- Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。
具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。
GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文 参考訳(メタデータ) (2025-11-07T08:34:50Z) - MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities [0.0]
本稿では,ドメイン固有および汎用コーパスの最適化目標を分離する新しいフレームワークであるMixture of Losses (MoL)を提案する。
具体的には、クロスエントロピー(CE)損失は知識獲得を保証するためにドメイン・コーパスに適用され、一方、Kulback-Leibler(KL)の分散は、一般的なコーパストレーニングとベースモデルの基本的な能力とを一致させる。
論文 参考訳(メタデータ) (2025-05-17T15:12:47Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - LENS: Large Pre-trained Transformer for Exploring Financial Time Series Regularities [3.475989206546412]
金融時系列の事前学習モデルである textbfLENS を提案する。
textbfLENSは、慎重に構築されたモデルアーキテクチャを通じて、金融システムの複雑さを効果的にキャプチャする。
我々の研究は、高雑音環境下で事前学習された時系列モデルの開発に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - FinLLM-B: When Large Language Models Meet Financial Breakout Trading [13.465954970263502]
FinLLM-Bはファイナンシャル・ブレークアウト検出のための主要な言語モデルである。
我々は,大規模言語モデル,すなわち多段階構造のための新しいフレームワークを開発した。
GPT-3.5と比較して、FinLLM-Bは回答の平均精度を49.97%改善し、多段構造は9.72%改善に寄与した。
論文 参考訳(メタデータ) (2024-02-12T10:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。