論文の概要: Mi:dm 2.0 Korea-centric Bilingual Language Models
- arxiv url: http://arxiv.org/abs/2601.09066v1
- Date: Wed, 14 Jan 2026 01:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.214981
- Title: Mi:dm 2.0 Korea-centric Bilingual Language Models
- Title(参考訳): Mi:dm 2.0 韓国中心のバイリンガル言語モデル
- Authors: Donghoon Shin, Sejung Lee, Soonmin Bae, Hwijung Ryu, Changwon Ok, Hoyoun Jung, Hyesung Ji, Jeehyun Lim, Jehoon Lee, Ji-Eun Han, Jisoo Baik, Mihyeon Kim, Riwoo Chung, Seongmin Lee, Wonjae Park, Yoonseok Heo, Youngkyung Seo, Seyoun Won, Boeun Kim, Cheolhun Heo, Eunkyeong Lee, Honghee Lee, Hyeongju Ju, Hyeontae Seo, Jeongyong Shim, Jisoo Lee, Junseok Koh, Junwoo Kim, Minho Lee, Minji Kang, Minju Kim, Sangha Nam, Seongheum Park, Taehyeong Kim, Euijai Ahn, Hong Seok Jeung, Jisu Shin, Jiyeon Kim, Seonyeong Song, Seung Hyun Kong, Sukjin Hong, Taeyang Yun, Yu-Seon Kim, A-Hyun Lee, Chae-Jeong Lee, Hye-Won Yu, Ji-Hyun Ahn, Song-Yeon Kim, Sun-Woo Jung, Eunju Kim, Eunji Ha, Jinwoo Baek, Yun-ji Lee, Wanjin Park, Jeong Yeop Kim, Eun Mi Kim, Hyoung Jun Park, Jung Won Yoon, Min Sung Noh, Myung Gyo Oh, Wongyoung Lee, Yun Jin Park, Young S. Kwon, Hyun Keun Kim, Jieun Lee, YeoJoo Park,
- Abstract要約: 韓国中心のAIを推進するために特別に設計されたバイリンガルな大規模言語モデル(LLM)であるMi:dm 2.0を紹介する。
このモデルは、朝鮮社会に固有の価値観、推論パターン、常識知識を統合することで、韓国のテキスト処理を越えている。
Mi:dm 2.0ラインナップはMITライセンス下でリリースされ、広範な研究と商用利用をサポートする。
- 参考スコア(独自算出の注目度): 23.597045510560843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mi:dm 2.0, a bilingual large language model (LLM) specifically engineered to advance Korea-centric AI. This model goes beyond Korean text processing by integrating the values, reasoning patterns, and commonsense knowledge inherent to Korean society, enabling nuanced understanding of cultural contexts, emotional subtleties, and real-world scenarios to generate reliable and culturally appropriate responses. To address limitations of existing LLMs, often caused by insufficient or low-quality Korean data and lack of cultural alignment, Mi:dm 2.0 emphasizes robust data quality through a comprehensive pipeline that includes proprietary data cleansing, high-quality synthetic data generation, strategic data mixing with curriculum learning, and a custom Korean-optimized tokenizer to improve efficiency and coverage. To realize this vision, we offer two complementary configurations: Mi:dm 2.0 Base (11.5B parameters), built with a depth-up scaling strategy for general-purpose use, and Mi:dm 2.0 Mini (2.3B parameters), optimized for resource-constrained environments and specialized tasks. Mi:dm 2.0 achieves state-of-the-art performance on Korean-specific benchmarks, with top-tier zero-shot results on KMMLU and strong internal evaluation results across language, humanities, and social science tasks. The Mi:dm 2.0 lineup is released under the MIT license to support extensive research and commercial use. By offering accessible and high-performance Korea-centric LLMs, KT aims to accelerate AI adoption across Korean industries, public services, and education, strengthen the Korean AI developer community, and lay the groundwork for the broader vision of K-intelligence. Our models are available at https://huggingface.co/K-intelligence. For technical inquiries, please contact midm-llm@kt.com.
- Abstract(参考訳): 韓国中心のAIを推進するために特別に設計されたバイリンガルな大規模言語モデル(LLM)であるMi:dm 2.0を紹介する。
このモデルは、朝鮮社会に固有の価値観、推論パターン、コモンセンス知識を統合し、文化的文脈、情緒的微妙さ、現実世界のシナリオの微妙な理解を可能にし、信頼性と文化的に適切な応答を生み出すことによって、韓国のテキスト処理を超越している。
Mi:dm 2.0は、プロプライエタリなデータクリーニング、高品質な合成データ生成、カリキュラム学習との戦略的データミキシング、そして、効率とカバレッジを改善するためのカスタム韓国最適化トークンライザを含む包括的なパイプラインを通じて、堅牢なデータ品質を強調している。
Mi:dm 2.0 Base (11.5Bパラメータ)、Mi:dm 2.0 Mini (2.3Bパラメータ)、リソース制約のある環境や特別なタスクに最適化された2つの補完的な構成を提供する。
Mi:dm 2.0は、KMMLUにおける最上位のゼロショット結果と言語、人文科学、社会科学のタスクにおける強力な内部評価結果によって、韓国固有のベンチマークで最先端のパフォーマンスを達成する。
Mi:dm 2.0ラインナップはMITライセンス下でリリースされ、広範な研究と商用利用をサポートする。
KTは、韓国の産業、公共サービス、教育におけるAIの採用を加速し、韓国のAI開発者コミュニティを強化し、Kインテリジェンス(K-intelligence)の幅広いビジョンの基盤となることを目的としている。
私たちのモデルはhttps://huggingface.co/K-インテリジェンスで利用可能です。
技術的な質問については、Midm-llm@kt.comに連絡してください。
関連論文リスト
- Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data [55.65426108082807]
Uni-MoE-2.0-Omniをスクラッチから3つのコアコントリビューションで構築しています。
雑用的な理解や、画像、テキスト、音声を生成することができる。
論文 参考訳(メタデータ) (2025-11-16T14:10:55Z) - KORMo: Korean Open Reasoning Model for Everyone [24.596298830917394]
本研究は, 英語以外の言語, 特に韓国語を対象に, 主に合成データに基づいて訓練された, 完全にオープンなバイリンガル大言語モデル(LLM)を構築するための, 初めての大規模研究である。
本研究は, 言語的包括的・多種多様な指導スタイルを念頭に置いた合成データが, 大規模事前学習における不安定性や劣化を生じさせないことを示した。
実験の結果,(1) 合成データはモデル崩壊を伴わずに長期訓練を確実に維持でき,(2) バイリンガル指導は韓国語でほぼネイティブな推論と談話のコヒーレンスを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-10-10T14:31:25Z) - Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources [5.341994281991984]
本稿では, 既存の英語 LLM を低予算シナリオで韓国語に適応させる手法を提案する。
韓国のデータセットを収集し、データを前処理し、モデルをトレーニングし、下流のベンチマークを作成し、評価を行う。
我々の新しいバイリンガルモデルであるThunder-LLMとThunder-LLM-Insは、最小限のデータと計算資源を生かしながら、最先端モデルと比較して韓国の優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-18T17:33:51Z) - Harnessing PDF Data for Improving Japanese Large Multimodal Models [56.80385809059738]
大規模マルチモーダルモデル (LMM) は英語では高い性能を示したが、日本語では有効性は限られている。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化知識を捉える能力を制限する。
我々は、事前訓練されたモデルを利用してPDFから画像とテキストのペアを抽出する完全自動パイプラインを導入する。
論文 参考訳(メタデータ) (2025-02-20T17:59:59Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - KMMLU: Measuring Massive Multitask Language Understanding in Korean [32.06346608507584]
KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。
以前の韓国のベンチマークは既存の英語のベンチマークから翻訳されるが、KMMLUはオリジナルの韓国の試験から収集される。
論文 参考訳(メタデータ) (2024-02-18T11:41:07Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。