論文の概要: Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study
- arxiv url: http://arxiv.org/abs/2509.03972v1
- Date: Thu, 04 Sep 2025 07:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.092944
- Title: Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study
- Title(参考訳): 韓国の事例研究によるオープンソースLLMにおける基礎言語能力の拡大
- Authors: Junghwan Lim, Gangwon Jo, Sungmin Lee, Jiyoung Park, Dongseok Kim, Jihwan Kim, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Kibong Choi, Jaeyeon Huh, Beomgyu Kim, Jangwoong Kim, Taehyun Kim, Haesol Lee, Jeesoo Lee, Dongpin Oh, Changseok Song, Daewon Suh,
- Abstract要約: 102億のパラメータからなる言語モデルであるLlama-3-Motifを導入する。
Llama-3-Motifは、コアトランスフォーマーアーキテクチャを変更することなくモデルを効果的にスケールするために、LlamaProやMasked Structure Growthといった高度なトレーニング技術を採用している。
ハイパースケールGPUクラスタ間の効率的なトレーニングにMoAIプラットフォームを使用することで、韓国とイギリスのデータのバランスの取れた比率を維持するために、慎重にキュレートされたデータセットを使用して、Llama-3-Motifを最適化した。
- 参考スコア(独自算出の注目度): 11.503751895052572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Llama-3-Motif, a language model consisting of 102 billion parameters, specifically designed to enhance Korean capabilities while retaining strong performance in English. Developed on the Llama 3 architecture, Llama-3-Motif employs advanced training techniques, including LlamaPro and Masked Structure Growth, to effectively scale the model without altering its core Transformer architecture. Using the MoAI platform for efficient training across hyperscale GPU clusters, we optimized Llama-3-Motif using a carefully curated dataset that maintains a balanced ratio of Korean and English data. Llama-3-Motif shows decent performance on Korean-specific benchmarks, outperforming existing models and achieving results comparable to GPT-4.
- Abstract(参考訳): 102億のパラメータからなる言語モデルであるLlama-3-Motifを導入する。
Llama 3アーキテクチャをベースに開発されたLlama-3-Motifは、コアトランスフォーマーアーキテクチャを変更することなくモデルを効果的にスケールするために、LlamaProやMasked Structure Growthといった高度なトレーニング技術を採用している。
ハイパースケールGPUクラスタ間の効率的なトレーニングにMoAIプラットフォームを使用することで、韓国とイギリスのデータのバランスの取れた比率を維持するために、慎重にキュレートされたデータセットを使用して、Llama-3-Motifを最適化した。
Llama-3-Motifは韓国固有のベンチマークで十分なパフォーマンスを示し、既存のモデルを上回っ、GPT-4に匹敵する結果を得た。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Bielik v3 Small: Technical Report [0.0]
ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。
これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-05-05T10:39:51Z) - Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training [4.059735204483926]
大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案する。
Lumosは平均3.3%のエラーで実行時間をリプレイでき、他のランタイムの詳細とともに、異なるモデルや設定で実行できる。
論文 参考訳(メタデータ) (2025-04-12T18:43:24Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - What Changes Can Large-scale Language Models Bring? Intensive Study on
HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.596023525331862]
GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。
韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版HyperCLOVAを紹介する。
我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
論文 参考訳(メタデータ) (2021-09-10T03:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。