論文の概要: A.X K1 Technical Report
- arxiv url: http://arxiv.org/abs/2601.09200v1
- Date: Wed, 14 Jan 2026 06:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.28954
- Title: A.X K1 Technical Report
- Title(参考訳): A.X K1技術報告
- Authors: Sung Jun Cheon, Jaekyung Cho, Seongho Choi, Hyunjun Eun, Seokhwan Jo, Jaehyun Jun, Minsoo Kang, Jin Kim, Jiwon Kim, Minsang Kim, Sungwan Kim, Seungsik Kim, Tae Yoon Kim, Youngrang Kim, Hyeongmun Lee, Sangyeol Lee, Sungeun Lee, Youngsoon Lee, Yujin Lee, Seongmin Ok, Chanyong Park, Hyewoong Park, Junyoung Park, Hyunho Yang, Subin Yi, Soohyun Bae, Dhammiko Arya, Yongseok Choi, Sangho Choi, Dongyeon Cho, Seungmo Cho, Gyoungeun Han, Yong-jin Han, Seokyoung Hong, Hyeon Hwang, Wonbeom Jang, Minjeong Ju, Wonjin Jung, Keummin Ka, Sungil Kang, Dongnam Kim, Joonghoon Kim, Jonghwi Kim, SaeRom Kim, Sangjin Kim, Seongwon Kim, Youngjin Kim, Seojin Lee, Sunwoo Lee, Taehoon Lee, Chanwoo Park, Sohee Park, Sooyeon Park, Yohan Ra, Sereimony Sek, Seungyeon Seo, Gun Song, Sanghoon Woo, Janghan Yoon, Sungbin Yoon,
- Abstract要約: A.X K1はMixture-of-Experts (MoE)言語モデルである。
A.X K1は、約10Tトークンのコーパスで事前訓練され、多段データ処理パイプラインでキュレートされる。
A.X K1は、さまざまな現実世界のシナリオにまたがるスケーラブルなデプロイメントを容易にするために、明示的に制御可能な推論をサポートする。
- 参考スコア(独自算出の注目度): 24.287781467694227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.
- Abstract(参考訳): 我々は,519Bパラメータ混合(MoE)言語モデルであるA.X K1を紹介する。
我々の設計では、計算予算の固定の下でのトレーニング構成と語彙サイズを最適化するためにスケーリング法則を活用している。
A.X K1は、約10Tトークンのコーパスで事前訓練され、多段データ処理パイプラインでキュレートされる。
推論能力と推論効率のギャップを埋めるために設計されたA.X K1は、さまざまな現実世界のシナリオにまたがるスケーラブルなデプロイメントを容易にするために、明示的に制御可能な推論をサポートする。
単一統一モデルにおける思考モードと非思考モードの切り替えをユーザが制御できる、シンプルで効果的な思考融合トレーニングレシピを提案する。
大規模な評価は、A.X K1が主要なオープンソースモデルと性能の競合を達成し、韓国のベンチマークで顕著な優位性を確立していることを示している。
関連論文リスト
- HyperCLOVA X THINK Technical Report [0.0]
HyperCLOVA X THINKはHyperCLOVA Xファミリの最初の推論中心の大規模言語モデルである。
韓国の約6兆ドル(約660兆円)の高品質な韓国のトークンと、ターゲットとする韓国の合成データで強化された英語のトークンを事前訓練した。
韓国のベンチマークでも同様の大きさのモデルに対して、競争力のあるパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-27T17:23:12Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models [39.35525969831397]
本研究は、中国語スペル訂正(CSC)タスクに大規模言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-10-05T04:06:56Z) - Adaptive Cross-lingual Text Classification through In-Context One-Shot Demonstrations [47.89819316477715]
我々は、IC-XLT(In-Context Cross-lingual Transfer)を導入して、分類タスクにおけるワンショット言語間移動にICT(In-Context Tuning)を利用する。
新たな概念は、コンテキストサンプルから学習するためにモデルをトレーニングし、その言語でOne-Shotコンテキストのデモを予測することによって、ターゲット言語への推論中にそれを適応させる、というものだ。
この結果から, IC-XLT はmT5モデルの言語横断性を向上し, 微調整により適応したZero およびFew-shot シナリオにおいて, プロンプトベースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T04:40:57Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。