論文の概要: JAI-1: A Thai-Centric Large Language Model
- arxiv url: http://arxiv.org/abs/2510.08620v1
- Date: Wed, 08 Oct 2025 09:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.210153
- Title: JAI-1: A Thai-Centric Large Language Model
- Title(参考訳): JAI-1:タイ語中心の大規模言語モデル
- Authors: Attapol T. Rutherford, Jullajak Karnjanaekarin, Narongkorn Panitsrisit, Pontakorn Trakuekul, Sumana Sumanakul, Natchanon Pollertlam,
- Abstract要約: 本稿では,75Bパラメータを持つタイ語中心の言語モデルであるJAI-1を紹介する。
タイ語の知識を体系的に統合するために、アップスケーリング戦略を使用します。
このモデルはタイ中心のベンチマークでTyphoon2-70Bよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report introduces JAI-1, a Thai-centric language model with 75B parameters. Recent Thai models have primarily relied on existing open-source models, applying additional training without structural modifications to specialize in Thai. However, this approach risks eroding pre-existing knowledge in the model's parameter space during the injection of Thai-specific information, as optimized parameters for general tasks may conflict with new linguistic requirements. In contrast, JAI-1 adopts an upscaling strategy: starting from a smaller, high-performing English open-source LLM, we expanded its parameter space and utilized the newly allocated capacity to systematically integrate Thai-language knowledge. This methodology not only preserves the original model's general intelligence but also establishes a unique architecture distinct from other open-source models, enabling scalable future enhancements. During pre-training, JAI-1 was exposed to 1.5T tokens, including over 300B Thai language tokens. This was followed by post-training stages -- supervised fine-tuning and alignment tuning -- using more than 600K instruction-based examples. The final model demonstrated superior performance compared to Typhoon2-70B on Thai-centric benchmarks (IFEval-TH, MT-Bench-TH, and JAI-Hall-Bench), validating the efficacy of its upscaling and knowledge-integration framework.
- Abstract(参考訳): この技術報告では、75Bパラメータを持つタイ語中心の言語モデルであるJAI-1を紹介する。
最近のタイのモデルは、主に既存のオープンソースモデルに依存しており、タイの特化のために構造的な変更を伴わない追加のトレーニングを適用している。
しかし,本手法は,タイ語固有の情報注入時のモデルパラメータ空間における既存の知識を損なう危険性があり,一般タスクの最適化されたパラメータは新たな言語要件と矛盾する可能性がある。
対照的に,JAI-1は,より小型で高性能なLLMから始まり,パラメータ空間を拡張し,新たに割り当てられた能力を活用してタイ語の知識を体系的に統合する,スケールアップ戦略を採用している。
この方法論は、オリジナルのモデルの一般的なインテリジェンスを保存するだけでなく、他のオープンソースモデルとは異なるユニークなアーキテクチャを確立し、スケーラブルな将来の拡張を可能にします。
事前訓練中、JAI-1は、300億以上のタイ語トークンを含む1.5Tトークンに曝露された。
続いて600K以上の命令ベースの例を使用して、トレーニング後のステージ – 教師付き微調整とアライメントチューニング – が実施された。
最終モデルはタイ中心ベンチマーク(IFEval-TH, MT-Bench-TH, JAI-Hall-Bench)のTyphoon2-70Bよりも優れた性能を示した。
関連論文リスト
- OpenJAI-v1.0: An Open Thai Large Language Model [0.0]
OpenJAI-v1.0はタイ語と英語のオープンソースの大規模言語モデルである。
当社の作業は、慎重にキュレートされたデータによるパフォーマンス向上に重点を置いています。
論文 参考訳(メタデータ) (2025-10-08T10:12:56Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - OpenThaiGPT 1.6 and R1: Thai-Centric Open Source and Reasoning Large Language Models [0.0]
OTG-1.6はタスク・アリストメティクス・モデルを組み合わせて広範囲に一般化し、OTG-R1はマルチステージ・トレーニングとLess-Is-More Reasoning hypothesis (LIMO)を統合して高度な推論を行う。
ベンチマーク評価は、タイ語のタスク間で優れたパフォーマンスを示し、大規模なオープンソースであるタイのLLMに対して競争力を発揮する。
論文 参考訳(メタデータ) (2025-04-02T14:55:52Z) - OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model [0.0]
OpenThaiGPT 1.5はQwen v2.5をベースにした高度なタイ語チャットモデルである。
このレポートは、モデルの開発、能力、パフォーマンスに関する工学的な視点を提供する。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。