論文の概要: KORMo: Korean Open Reasoning Model for Everyone
- arxiv url: http://arxiv.org/abs/2510.09426v1
- Date: Fri, 10 Oct 2025 14:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.288465
- Title: KORMo: Korean Open Reasoning Model for Everyone
- Title(参考訳): KORMo:韓国のオープン推論モデル
- Authors: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim,
- Abstract要約: 本研究は, 英語以外の言語, 特に韓国語を対象に, 主に合成データに基づいて訓練された, 完全にオープンなバイリンガル大言語モデル(LLM)を構築するための, 初めての大規模研究である。
本研究は, 言語的包括的・多種多様な指導スタイルを念頭に置いた合成データが, 大規模事前学習における不安定性や劣化を生じさせないことを示した。
実験の結果,(1) 合成データはモデル崩壊を伴わずに長期訓練を確実に維持でき,(2) バイリンガル指導は韓国語でほぼネイティブな推論と談話のコヒーレンスを可能にすることがわかった。
- 参考スコア(独自算出の注目度): 24.596298830917394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
- Abstract(参考訳): 本研究は, 英語以外の言語, 特に韓国語を対象に, 主に合成データに基づいて訓練された, 完全にオープンなバイリンガル大言語モデル(LLM)を構築するための, 初めての大規模研究である。
韓国語コーパスの68.74%が合成された10.8BパラメータモデルであるKORMo-10Bを紹介した。
体系的な実験を通じて,言語的包摂性や多様な指導スタイルを慎重に調整した場合,大規模な事前学習において不安定や劣化は生じないことを示す。
さらに、このモデルは、幅広い推論、知識、命令追従ベンチマークにおいて、現代のオープンウェイトな多言語ベースラインに匹敵する性能を達成する。
実験の結果,(1) 合成データはモデル崩壊を伴わずに長期訓練を確実に維持でき,(2) バイリンガル指導は韓国語でほぼネイティブな推論と談話のコヒーレンスを可能にすることがわかった。
データ、コード、トレーニングレシピ、ログを含むすべてのコンポーネントを完全リリースすることで、この作業は、低リソース環境で合成データ駆動完全オープンモデル(FOM)を開発するための透過的なフレームワークを確立し、将来の多言語LLM研究の再現可能な前例を設定します。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining [2.6638517946494535]
単言語事前学習データをよりよく活用するための多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。
提案したモデル LDM はまず言語に依存しないデータに基づいて事前訓練され,言語知識は拡散モデルによって分離され,次に下流言語で微調整される。
論文 参考訳(メタデータ) (2024-12-19T07:31:40Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。