論文の概要: Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
- arxiv url: http://arxiv.org/abs/2601.18129v1
- Date: Mon, 26 Jan 2026 04:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.675311
- Title: Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models
- Title(参考訳): Typhoon-S: 厳格な大規模言語モデルのための最小限のオープントレーニング
- Authors: Kunat Pipatanakul, Pittawat Taveekitworachai,
- Abstract要約: 台風S(Typhoon S)は、監督された微調整、オンライン蒸留、小型RFTを組み合わせた、最小限でオープンな訓練後のレシピである。
提案手法は,ソブリン適応ベースモデルと汎用ベースモデルの両方を,強い汎用性能を持つ命令調整モデルに変換する。
この結果から, 学習後戦略を慎重に設計することで, 必要な命令データや計算量を削減できることが示唆された。
- 参考スコア(独自算出の注目度): 5.8695931118742015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have progressed rapidly; however, most state-of-the-art models are trained and evaluated primarily in high-resource languages such as English and Chinese, and are often developed by a small number of organizations with access to large-scale compute and data. This gatekeeping creates a practical barrier for sovereign settings in which a regional- or national-scale institution or domain owner must retain control and understanding of model weights, training data, and deployment while operating under limited resources and strict transparency constraints. To this end, we identify two core requirements: (1) adoptability, the ability to transform a base model into a general-purpose assistant, and (2) sovereign capability, the ability to perform high-stakes, region-specific tasks (e.g., legal reasoning in local languages and cultural knowledge). We investigate whether these requirements can be achieved without scaling massive instruction corpora or relying on complex preference tuning pipelines and large-scale reinforcement fine-tuning (RFT). We present Typhoon S, a minimal and open post-training recipe that combines supervised fine-tuning, on-policy distillation, and small-scale RFT. Using Thai as a representative case study, we demonstrate that our approach transforms both sovereign-adapted and general-purpose base models into instruction-tuned models with strong general performance. We further show that small-scale RFT with InK-GRPO -- an extension of GRPO that augments the GRPO loss with a next-word prediction loss -- improves Thai legal reasoning and Thai-specific knowledge while preserving general capabilities. Our results suggest that a carefully designed post-training strategy can reduce the required scale of instruction data and computation, providing a practical path toward high-quality sovereign LLMs under academic-scale resources.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩しているが、ほとんどの最先端モデルは英語や中国語などの高リソース言語で訓練・評価されており、大規模な計算とデータにアクセス可能な少数の組織によってしばしば開発されている。
このゲートキーピングは、限定的なリソースと厳格な透明性の制約の下で運用しながら、地域または国家規模の機関やドメイン所有者がモデルウェイト、トレーニングデータ、デプロイメントの制御と理解を維持しなければならない、主権設定のための実践的な障壁を生み出します。
この目的のために,(1)適応性,(2)基本モデルを汎用アシスタントに変換する能力,(2)主権能力,ハイテイク,地域固有のタスク(例えば,地方言語や文化知識における法的理由づけ)の2つのコア要件を特定した。
本研究では,大規模な命令コーパスをスケールすることなく,複雑な選好チューニングパイプラインや大規模強化微調整(RFT)に頼ることなく,これらの要求が達成できるかどうかを検討する。
我々は, 教師付き微調整, オンライン蒸留, 小型RFTを組み合わせた, 最小かつオープンな訓練後レシピTyphoon Sを提案する。
代表的なケーススタディとしてタイ語を用いて、我々のアプローチは、ソブリン適応ベースモデルと汎用ベースモデルの両方を、強力な汎用性能を持つ命令調整モデルに変換することを実証する。
さらに、GRPOの拡張であるInK-GRPOによる小規模RTTは、GRPOの損失を次の単語予測損失で増大させ、一般的な能力を保ちながらタイの法的推論とタイ固有の知識を改善していることを示す。
この結果から, 学習後学習戦略を慎重に設計することで, 必要な指導データや計算量の削減が図られ, 学術的資源下での高品質な主権 LLM への実践的な道筋がもたらされることが示唆された。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - Revealing the Power of Post-Training for Small Language Models via Knowledge Distillation [43.68215777330875]
我々は,小型モデルの精度を効果的に向上する,系統的な後学習パイプラインを導入する。
結果として得られた命令調整モデルにより、最先端のパフォーマンスが達成される。
この研究は、Ascendエッジデバイス上で高性能言語モデルを開発するための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-30T16:40:55Z) - Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs [20.94201888693295]
Tower+は,翻訳機能と多言語汎用テキスト機能の両方にわたって,強力なパフォーマンスを実現するように設計されたモデルスイートである。
学習の各段階で、汎用タスクだけでなく、翻訳の性能を高めるためにデータを生成し、キュレートする。
この結果から,特定のビジネスドメインを最適化しながら,フロンティアモデルに対抗できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:06Z) - DeepForm: Reasoning Large Language Model for Communication System Formulation [14.249525913644884]
通信システムの定式化は6Gと将来の無線技術の発展に不可欠である。
我々は,CSFRC(Communication System Formulation Reasoning Corpus)と呼ばれる,世界初となる大規模かつオープンソースなデータセットを,このドメインに対して慎重にキュレートした。
フレームワークには2段階のトレーニング戦略が採用されている。第1に,Chain-of-Thought(CoT)データを用いてドメイン知識を抽出し,第2にルールベース強化学習(Reinforcement Learning, RL)アルゴリズム,第2にReMaxに基づくC-ReMax。
論文 参考訳(メタデータ) (2025-06-10T08:16:24Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。