論文の概要: StatLLaMA: A multi-stage training framework for building a domain-optimized statistical language model
- arxiv url: http://arxiv.org/abs/2601.09718v1
- Date: Fri, 26 Dec 2025 05:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.697488
- Title: StatLLaMA: A multi-stage training framework for building a domain-optimized statistical language model
- Title(参考訳): StatLLaMA:ドメイン最適化統計言語モデル構築のための多段階トレーニングフレームワーク
- Authors: Jing-Yi Zeng, Guan-Hua Huang,
- Abstract要約: 本研究は,LLaMA-3.2-3Bファウンデーションモデル(FM)を用いた統計用ドメイン特化大言語モデル(LLM)を効率的に構築する方法を検討する。
基本FMから始まるパイプラインは、広範囲な命令チューニング、SFT、RLHFアライメントの後にも有意な統計的推論を達成できないことを示す。
SFTの亜種を総合的に評価すると、ドメインの専門知識と一般的な推論能力とのトレードオフが明らかになる。
最終的なモデルであるStatLLaMAは、数学的推論、常識的推論、統計的専門性のベンチマークにおいて、強くバランスの取れた性能を達成する。
- 参考スコア(独自算出の注目度): 5.054296921472948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates how to efficiently build a domain-specialized large language model (LLM) for statistics using the lightweight LLaMA-3.2-3B family as the foundation model (FM). We systematically compare three multi-stage training pipelines, starting from a base FM with no instruction-following capability, a base FM augmented with post-hoc instruction tuning, and an instruction-tuned FM with strong general reasoning abilities across continual pretraining, supervised fine-tuning (SFT), reinforcement learning from human feedback (RLHF) preference alignment, and downstream task adaptation. Results show that pipelines beginning with a base FM fail to develop meaningful statistical reasoning, even after extensive instruction tuning, SFT, or RLHF alignment. In contrast, starting from LLaMA-3.2-3B-Instruct enables effective domain specialization. A comprehensive evaluation of SFT variants reveals clear trade-offs between domain expertise and general reasoning ability. We further demonstrate that direct preference optimization provides stable and effective RLHF preference alignment. Finally, we show that downstream fine-tuning must be performed with extremely low intensity to avoid catastrophic forgetting in highly optimized models. The final model, StatLLaMA, achieves strong and balanced performance on benchmarks of mathematical reasoning, common-sense reasoning, and statistical expertise, offering a practical blueprint for developing resource-efficient statistical LLMs. The code is available at https://github.com/HuangDLab/StatLLaMA.
- Abstract(参考訳): 本研究では,LLaMA-3.2-3B ファウンデーションモデル (FM) を用いて,ドメイン特化大言語モデル (LLM) を統計的に効率的に構築する方法を検討する。
命令追従能力のないベースFM,ポストホック指導訓練を付加したベースFM,継続事前学習における強い一般的な推論能力を備えた命令調整FM,教師付き微調整(SFT),人的フィードバックからの強化学習(RLHF)優先アライメント,下流タスク適応の3つのマルチステージ訓練パイプラインを体系的に比較した。
その結果, FMをベースとしたパイプラインは, 広範囲な命令チューニング, SFT, RLHFアライメントの後にも, 有意な統計的推論を達成できないことがわかった。
対照的に、LLaMA-3.2-3B-Instructから始めると、効果的なドメインの特殊化が可能となる。
SFTの亜種を総合的に評価すると、ドメインの専門知識と一般的な推論能力とのトレードオフが明らかになる。
さらに、直接選好最適化は、安定かつ効果的なRLHF選好アライメントを提供することを示した。
最後に、高度に最適化されたモデルにおける破滅的な忘れ込みを避けるために、下流の微調整を極端に低い強度で行う必要があることを示す。
最終的なモデルであるStatLLaMAは、数学的推論、常識的推論、統計的専門知識のベンチマークにおいて、資源効率の高い統計的LLMを開発するための実用的な青写真を提供する。
コードはhttps://github.com/HuangDLab/StatLLaMAで入手できる。
関連論文リスト
- UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning - A Convex Optimization Perspective [55.66517396157806]
オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。
これはSFTとRLHF/DPOのトレードオフの点において最適である。
本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上させる,実践的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:38:41Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - HFT: Half Fine-Tuning for Large Language Models [42.60438623804577]
1つ以上の微調整フェーズを持つ大規模言語モデル(LLM)は、様々な機能をアンロックするために必要なステップとなっている。
本稿では,部分的パラメータを定期的にリセットすることで,LLMが元の知識の一部を復元できることを見出した。
本稿では,LLM 用ハーフファインチューニング (HFT) をフルファインチューニング (FFT) の代替として導入し,忘れる問題を緩和する。
論文 参考訳(メタデータ) (2024-04-29T07:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。