論文の概要: Building Domain-Specific Small Language Models via Guided Data Generation
- arxiv url: http://arxiv.org/abs/2511.21748v1
- Date: Sun, 23 Nov 2025 07:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.204148
- Title: Building Domain-Specific Small Language Models via Guided Data Generation
- Title(参考訳): ガイド付きデータ生成によるドメイン特化小言語モデルの構築
- Authors: Aman Kumar, Ekant Muljibhai Amin, Xian Yeow Lee, Lasitha Vidyaratne, Ahmed K. Farahat, Dipanjan D. Ghosh, Yuta Koreeda, Chetan Gupta,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い知識集約的なタスクをサポートすることに顕著な成功を収めている。
専門分野においては、分野の専門家をドメイン固有の課題で支援するためにLLMを活用することへの関心が高まっている。
多くのオープンソースモデルは、効果的なドメイン適応とデプロイのために重要な計算資源を必要とする。
小型シードコーパスからガイド付き合成データ生成とボトムアップドメインデータを組み合わせた,低コストでスケーラブルなトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 5.404790079646315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable success in supporting a wide range of knowledge-intensive tasks. In specialized domains, there is growing interest in leveraging LLMs to assist subject matter experts with domain-specific challenges. However, deploying LLMs as SaaS solutions raises data privacy concerns, while many open-source models demand significant computational resources for effective domain adaptation and deployment. A promising alternative is to develop smaller, domain-specialized LLMs, though this approach is often constrained by the lack of high-quality domain-specific training data. In this work, we address these limitations by presenting a cost-efficient and scalable training pipeline that combines guided synthetic data generation from a small seed corpus with bottom-up domain data curation. Our pipeline integrates Domain-Adaptive Pretraining (DAPT), Domain-specific Supervised Fine-tuning (DSFT), and Direct Preference Optimization (DPO) to train effective small-scale models for specialized use cases. We demonstrate this approach through DiagnosticSLM, a 3B-parameter domain-specific model tailored for fault diagnosis, root cause analysis, and repair recommendation in industrial settings. To evaluate model performance, we introduce four domain-specific benchmarks: multiple-choice questions (DiagnosticMCQ), question answering (DiagnosticQA), sentence completion (DiagnosticComp), and summarization (DiagnosticSum). DiagnosticSLM achieves up to 25% accuracy improvement over open-source models of comparable or larger size (2B-9B) on the MCQ task, while also outperforming or matching them in other tasks, demonstrating effective domain-specific reasoning and generalization capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い知識集約的なタスクをサポートすることに顕著な成功を収めている。
専門分野においては、分野の専門家をドメイン固有の課題で支援するためにLLMを活用することへの関心が高まっている。
しかし、LLMをSaaSソリューションとしてデプロイすることは、データプライバシの懸念を引き起こす。
有望な代替手段は、より小型のドメイン特化LDMを開発することであるが、このアプローチは、高品質なドメイン特化トレーニングデータがないために制約されることが多い。
本研究では,小規模シードコーパスからのガイド付き合成データ生成とボトムアップドメインデータキュレーションを組み合わせた,低コストでスケーラブルなトレーニングパイプラインを提案することで,これらの制約に対処する。
当社のパイプラインは,DAPT(Domain-Adaptive Pretraining),DSFT(Domain-specific Supervised Fine-tuning),DPO(Direct Preference Optimization)を統合して,特定のユースケースに対して有効な小規模モデルをトレーニングする。
本研究では, 断層診断, 根本原因解析, 補修レコメンデーションに適した3Bパラメータドメイン固有モデルである診断SLMを用いて本手法を実証する。
モデル性能を評価するために,複数選択質問(DiagnosticMCQ),質問応答(DiagnosticQA),文補完(DiagnosticComp),要約(DiagnosticSum)の4つのドメイン固有ベンチマークを導入する。
診断SLMはMCQタスクで同等またはより大きい2B-9Bのオープンソースモデルに対して最大25%の精度向上を実現し、また他のタスクでも性能を向上またはマッチングし、効果的なドメイン固有推論と一般化能力を示す。
関連論文リスト
- Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。
具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。
GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文 参考訳(メタデータ) (2025-11-07T08:34:50Z) - FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation [3.5023779900630028]
FineScopeは、より大きな事前訓練されたモデルからドメイン最適化言語モデルを導出するためのフレームワークである。
構造的プルーニングをドメイン固有の制約で適用し、結果のモデルが対象ドメインに不可欠な知識を保持することを保証します。
実験とアブレーション実験により、FinScopeは高い競争力を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-01T16:05:08Z) - On Domain-Adaptive Post-Training for Multimodal Large Language Models [78.65220510401045]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。