論文の概要: HyperCLOVA X THINK Technical Report
- arxiv url: http://arxiv.org/abs/2506.22403v1
- Date: Fri, 27 Jun 2025 17:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.309342
- Title: HyperCLOVA X THINK Technical Report
- Title(参考訳): HyperCLOVA X THINK 技術報告
- Authors: NAVER Cloud HyperCLOVA X Team,
- Abstract要約: HyperCLOVA X THINKはHyperCLOVA Xファミリの最初の推論中心の大規模言語モデルである。
韓国の約6兆ドル(約660兆円)の高品質な韓国のトークンと、ターゲットとする韓国の合成データで強化された英語のトークンを事前訓練した。
韓国のベンチマークでも同様の大きさのモデルに対して、競争力のあるパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HyperCLOVA X THINK, the first reasoning-focused large language model in the HyperCLOVA X family, pre-trained on roughly $6$ trillion high-quality Korean, and English tokens, augmented with targeted synthetic Korean data. It was implemented as a compute-memory-balanced Peri-LN Transformer scaled with $\mu$P, pre-trained through a three-stage curriculum that expands the context window to $128$K tokens, and post-trained via supervised fine-tuning with Reinforcement Learning from Verifiable Rewards supports both detailed rationale and concise-answer modes. It delivers competitive performance against similarly sized models on Korea-focused benchmarks such as KMMLU, CSAT, KoBALT-700, HAERAE-1.0, and KoBigBench, while preserving robust bilingual consistency and translation quality. In addition, a vision-augmented variant matches or exceeds GPT-4.1 on the KCSAT STEM benchmark, all of which are achieved with substantially lower training compute than existing models of similar sizes. We also present a pruning and distillation technique that will soon be applied to HyperCLOVA X THINK for an open-source and business-friendly foundation model. Altogether, these capabilities position HyperCLOVA X THINK as a robust foundation for Korean AI innovation and a valuable resource for the global research community.
- Abstract(参考訳): 我々はHyperCLOVA X THINKを紹介した。HyperCLOVA Xファミリーの最初の推論中心の大規模言語モデルであり、約6兆ドルの高品位韓国と英語のトークンで事前訓練され、ターゲットとなる韓国の合成データで強化されている。
計算メモリバランスのPeri-LN Transformerとして実装され、$\mu$Pでスケールし、コンテキストウィンドウを128$Kのトークンに拡張する3段階のカリキュラムで事前トレーニングされ、Reinforcement Learning from Verifiable Rewardsによる教師付き微調整によって後トレーニングされた。
KMMLU、CSAT、KoBALT-700、HAERAE-1.0、KoBigBenchといった韓国のベンチマークで同様の大きさのモデルに対して、堅牢なバイリンガル一貫性と翻訳品質を維持しながら、競合性能を提供する。
さらに、KCSAT STEMベンチマークでGPT-4.1を超える視力増強された変種は、いずれも類似サイズの既存のモデルよりも大幅に低いトレーニング計算で達成される。
また,HyperCLOVA X THINKをオープンソースかつビジネスフレンドリーな基礎モデルに適用するための,プルーニング・蒸留技術についても紹介する。
また、これらの能力は、HyperCLOVA X THINKを韓国のAIイノベーションの堅牢な基盤として位置づけ、世界研究コミュニティにとって貴重なリソースとなっている。
関連論文リスト
- HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - What Changes Can Large-scale Language Models Bring? Intensive Study on
HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.596023525331862]
GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。
韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版HyperCLOVAを紹介する。
我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
論文 参考訳(メタデータ) (2021-09-10T03:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。