論文の概要: Adapting Methods for Domain-Specific Japanese Small LMs: Scale, Architecture, and Quantization
- arxiv url: http://arxiv.org/abs/2603.18037v1
- Date: Thu, 12 Mar 2026 18:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.709004
- Title: Adapting Methods for Domain-Specific Japanese Small LMs: Scale, Architecture, and Quantization
- Title(参考訳): ドメイン特化型小型LMの適応法:スケール, アーキテクチャ, 量子化
- Authors: Takato Yasuno,
- Abstract要約: 本稿では,QLoRAファインチューニングを用いたドメイン固有日本語小言語モデルの構築手法を提案する。
最適なトレーニングスケール、ベースモデルの選択、アーキテクチャ対応の量子化の3つに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a systematic methodology for building domain-specific Japanese small language models using QLoRA fine-tuning. We address three core questions: optimal training scale, base-model selection, and architecture-aware quantization. Stage 1 (Training scale): Scale-learning experiments (1k--5k samples) identify n=4,000 as optimal, where test-set NLL reaches minimum (1.127) before overfitting at 5k samples. Stage 2 (Compare finetuned SLMs): Comparing four Japanese LLMs shows that Llama-3 models with Japanese continual pre-training (Swallow-8B, ELYZA-JP-8B) outperform multilingual models (Qwen2.5-7B). Stage 3 (Quantization): Llama-3 architectures improve under Q4_K_M quantization, while GQA architectures degrade severely (Qwen2.5: -0.280 points). Production recommendation: Swallow-8B Q4_K_M achieves 2.830/3 score, 8.9 s/question, 4.9 GB size. The methodology generalizes to low-resource technical domains and provides actionable guidance for compact Japanese specialist LMs on consumer hardware.
- Abstract(参考訳): 本稿では,QLoRAファインチューニングを用いたドメイン固有日本語小言語モデルの構築手法を提案する。
最適なトレーニングスケール、ベースモデルの選択、アーキテクチャ対応の量子化の3つに対処する。
ステージ1 (Training Scale): スケール学習実験(1k-5kサンプル)では、n=4,000が最適であると同定され、テストセットのNLLは5kサンプルでオーバーフィットする前に最小(1.127)に達する。
ステージ2(SLM:Compare finetuned SLMs):日本の4つのLCMと比較すると、Llama-3モデルと日本の継続事前訓練(Swallow-8B, ELYZA-JP-8B)は多言語モデル(Qwen2.5-7B)より優れていた。
ステージ3(量子化):Llama-3アーキテクチャはQ4_K_M量子化の下で改善され、GQAアーキテクチャはひどく劣化する(Qwen2.5: -0.280ポイント)。
Swallow-8B Q4_K_Mは2.830/3のスコア、8.9 s/クエスト、4.9 GBである。
本手法は,低リソースな技術ドメインに一般化し,消費者ハードウェア上でのコンパクトな日本語スペシャリストのための実用的なガイダンスを提供する。
関連論文リスト
- TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling [0.39287497907611874]
本稿では, ネイティブな1ビット3次量子化 -1, 0, +1 を用いた 132M パラメータトランスフォーマアーキテクチャである TernaryLM を提案する。
この結果から,ネイティブな1ビットトレーニングが,効率的なニューラルネットワークモデルにとって有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2026-02-07T05:35:17Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe [68.04078852416248]
MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T19:41:48Z) - Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion [32.0871035771324]
FuseChat-3.0は、異種音源LLMの強みをよりコンパクトな目標LLMに組み込むことによって開発された大型言語モデル(LLM)のスイートである。
ターゲットモデルでは、Llama-3.1-8B-インストラクト、Gemma-2-9B-it、Qwen-2.5-72B-インストラクトの3種類に焦点をあてる。
結果として得られたFuseChat-3.0モデルは、命令追従、一般的な知識、数学、コーディングといったタスク間で大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-03-06T09:03:36Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。