論文の概要: What Changes Can Large-scale Language Models Bring? Intensive Study on
HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2109.04650v1
- Date: Fri, 10 Sep 2021 03:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 23:24:23.553615
- Title: What Changes Can Large-scale Language Models Bring? Intensive Study on
HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers
- Title(参考訳): 大規模言語モデルはどのような変化をもたらすのか?
HyperCLOVA:数十億ドル規模の韓国生成事前学習トランスに関する研究
- Authors: Boseop Kim, HyoungSeok Kim, Sang-Woo Lee, Gichang Lee, Donghyun Kwak,
Dong Hyeon Jeon, Sunghyun Park, Sungju Kim, Seonhoon Kim, Dongpil Seo,
Heungsub Lee, Minyoung Jeong, Sungjae Lee, Minsub Kim, Suk Hyun Ko, Seokhun
Kim, Taeyong Park, Jinuk Kim, Soyoung Kang, Na-Hyeon Ryu, Kang Min Yoo,
Minsuk Chang, Soobin Suh, Sookyo In, Jinseong Park, Kyungduk Kim, Hiun Kim,
Jisu Jeong, Yong Goo Yeo, Donghoon Ham, Dongju Park, Min Young Lee, Jaewook
Kang, Inho Kang, Jung-Woo Ha, Woomyoung Park, Nako Sung
- Abstract要約: GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。
韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版HyperCLOVAを紹介する。
我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
- 参考スコア(独自算出の注目度): 16.596023525331862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPT-3 shows remarkable in-context learning ability of large-scale language
models (LMs) trained on hundreds of billion scale data. Here we address some
remaining issues less reported by the GPT-3 paper, such as a non-English LM,
the performances of different sized models, and the effect of recently
introduced prompt optimization on in-context learning. To achieve this, we
introduce HyperCLOVA, a Korean variant of 82B GPT-3 trained on a Korean-centric
corpus of 560B tokens. Enhanced by our Korean-specific tokenization, HyperCLOVA
with our training configuration shows state-of-the-art in-context zero-shot and
few-shot learning performances on various downstream tasks in Korean. Also, we
show the performance benefits of prompt-based learning and demonstrate how it
can be integrated into the prompt engineering pipeline. Then we discuss the
possibility of materializing the No Code AI paradigm by providing AI
prototyping capabilities to non-experts of ML by introducing HyperCLOVA studio,
an interactive prompt engineering interface. Lastly, we demonstrate the
potential of our methods with three successful in-house applications.
- Abstract(参考訳): GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)のテキスト内学習能力を示す。
ここでは、非英語のLM、異なるサイズのモデルの性能、最近導入された即時最適化が文脈内学習に与える影響など、GPT-3論文で報告されていないいくつかの問題に対処する。
これを実現するために,韓国中心の560Bトークンコーパスでトレーニングされた82B GPT-3の韓国版HyperCLOVAを紹介する。
韓国固有のトークン化によって強化されたHyperCLOVAは、韓国のさまざまな下流タスクにおいて、最先端のコンテキスト内ゼロショットと数ショットの学習パフォーマンスを示す。
また,プロンプトベース学習のパフォーマンスの利点を示し,それをどのようにプロンプトエンジニアリングパイプラインに統合できるかを示す。
次に、インタラクティブなプロンプトエンジニアリングインターフェースであるHyperCLOVAスタジオを導入することにより、AIプロトタイピング機能をMLの非専門家に提供することで、No Code AIパラダイムを実現する可能性について議論する。
最後に,3つの社内アプリケーションによる手法の可能性を示す。
関連論文リスト
- HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse
Heterogeneous Computing [64.53242758625922]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。
さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-20T03:39:27Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A
Large-Scale Generative Language Model [35.75234515196426]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。
MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2022-01-28T08:59:57Z) - PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language
Models with Auto-parallel Computation [58.31465205357637]
PanGu-$alpha$という,最大200億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。
PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (2021-04-26T06:59:36Z) - CPM: A Large-scale Generative Chinese Pre-trained Language Model [76.65305358932393]
我々は,大規模な中国語学習データに基づく生成事前学習を備えた中国語事前学習言語モデル(CPM)をリリースする。
CPMは、数ショット(ゼロショットでも)学習の設定において、多くのNLPタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-01T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。