論文の概要: GPT-SW3: An Autoregressive Language Model for the Nordic Languages
- arxiv url: http://arxiv.org/abs/2305.12987v2
- Date: Tue, 23 May 2023 06:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 10:52:06.736037
- Title: GPT-SW3: An Autoregressive Language Model for the Nordic Languages
- Title(参考訳): GPT-SW3:北欧語の自動回帰言語モデル
- Authors: Ariel Ekgren, Amaru Cuba Gyllensten, Felix Stollenwerk, Joey \"Ohman,
Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Alice Heiman, Judit
Casademont, Magnus Sahlgren
- Abstract要約: 本稿は,北欧語における最初の大規模生成言語モデルであるGPT-SW3の開発過程を詳述する。
本論文は,より小規模な言語のための大規模生成モデルの開発に携わる研究者のガイドおよび参考となることを期待する。
- 参考スコア(独自算出の注目度): 4.442367417843569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper details the process of developing the first native large
generative language model for the Nordic languages, GPT-SW3. We cover all parts
of the development process, from data collection and processing, training
configuration and instruction finetuning, to evaluation and considerations for
release strategies. We hope that this paper can serve as a guide and reference
for other researchers that undertake the development of large generative models
for smaller languages.
- Abstract(参考訳): 本稿は,北欧語における最初の大規模生成言語モデルであるGPT-SW3の開発過程を詳述する。
データ収集や処理,構成のトレーニング,命令の微調整,リリース戦略の評価や検討など,開発プロセスのすべての部分をカバーしています。
本論文は,より小規模な言語のための大規模生成モデルの開発に携わる研究者のガイドおよび参考となることを期待する。
関連論文リスト
- Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - The birth of Romanian BERT [1.377045689881944]
本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
論文 参考訳(メタデータ) (2020-09-18T09:30:48Z) - A Tailored Pre-Training Model for Task-Oriented Dialog Generation [60.05269529832447]
タスク指向対話システムのための事前訓練された役割交替言語モデル(PRAL)を提案する。
13個の既存のデータセットをクリーニングすることでタスク指向の対話事前学習データセットを導入する。
その結果,PRALは最先端の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-04-24T09:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。