論文の概要: SweCTRL-Mini: a data-transparent Transformer-based large language model
for controllable text generation in Swedish
- arxiv url: http://arxiv.org/abs/2304.13994v1
- Date: Thu, 27 Apr 2023 07:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:05:08.680249
- Title: SweCTRL-Mini: a data-transparent Transformer-based large language model
for controllable text generation in Swedish
- Title(参考訳): SweCTRL-Mini:スウェーデンにおける制御可能なテキスト生成のためのデータ透過トランスフォーマーに基づく大規模言語モデル
- Authors: Dmytro Kalpakchi, Johan Boye
- Abstract要約: SweCTRL-Miniは、推論と微調整に使用できるスウェーデンの大規模な言語モデルである。
このモデルは、Keskar, McCann, Varshney, Xiong, SocherのGPUアーキテクチャに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SweCTRL-Mini, a large Swedish language model that can be used for
inference and fine-tuning on a single consumer-grade GPU. The model is based on
the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019),
which means that users of the SweCTRL-Mini model can control the genre of the
generated text by inserting special tokens in the generation prompts.
SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a
set of Swedish novels. In this article, we provide (1) a detailed account of
the utilized training data and text pre-processing steps, to the extent that it
is possible to check whether a specific phrase/source was a part of the
training data, and (2) an evaluation of the model on both discriminative tasks,
using automatic evaluation methods, and generative tasks, using human referees.
We also compare the generative capabilities of the model with those of GPT-3.
SweCTRL-Mini is fully open and available for download.
- Abstract(参考訳): SweCTRL-Miniは,1つのコンシューマグレードGPU上での推論と微調整に使用できる,スウェーデンの大規模言語モデルである。
このモデルはKeskar, McCann, Varshney, Xiong, Socher (2019)によるCTRLアーキテクチャに基づいており、SweCTRL-Miniモデルのユーザは生成プロンプトに特別なトークンを挿入することで生成されたテキストのジャンルを制御できる。
SweCTRL-MiniはスウェーデンのmC4コーパスのサブセットとスウェーデンの小説のセットで訓練されている。
本稿では,(1)使用済みの訓練データとテキストの前処理ステップの詳細な説明,(2)特定のフレーズ/ソースが訓練データの一部であったかどうかの確認,(2)自動評価手法と生成課題を用いた判別作業におけるモデルの評価について述べる。
また,モデル生成能力とGPT-3の比較を行った。
SweCTRL-Miniは完全にオープンで、ダウンロードできる。
関連論文リスト
- SWEb: A Large Web Dataset for the Scandinavian Languages [11.41086713693524]
本稿はスカンジナビア語における最大の事前学習データセットであるスカンジナビア語WEb(SWEb)について述べる。
本稿では,ルールベースのアプローチと比較して,複雑性を著しく低減する新しいモデルベースのテキスト抽出手法を提案する。
また、スウェーデンの言語モデルを評価するための新しいクローゼスタイルのベンチマークを導入し、このテストを用いて、SWEbデータでトレーニングされたモデルとFinalWebでトレーニングされたモデルを比較し、競合する結果と比較した。
論文 参考訳(メタデータ) (2024-10-06T11:55:15Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - The MiniPile Challenge for Data-Efficient Language Models [2.0305676256390934]
The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
論文 参考訳(メタデータ) (2023-04-17T17:03:56Z) - Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training [36.5936227129021]
トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデルを新しい言語に拡張することができる。
我々は,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
論文 参考訳(メタデータ) (2022-12-20T18:17:28Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。