論文の概要: Fostering the Ecosystem of Open Neural Encoders for Portuguese with
Albertina PT* Family
- arxiv url: http://arxiv.org/abs/2403.01897v2
- Date: Tue, 5 Mar 2024 10:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:16:29.413578
- Title: Fostering the Ecosystem of Open Neural Encoders for Portuguese with
Albertina PT* Family
- Title(参考訳): Albertina PT* family によるポルトガルにおけるオープンニューラルエンコーダの生態系形成
- Authors: Rodrigo Santos, Jo\~ao Rodrigues, Lu\'is Gomes, Jo\~ao Silva,
Ant\'onio Branco, Henrique Lopes Cardoso, Tom\'as Freitas Os\'orio, Bernardo
Leite
- Abstract要約: 本稿では,オープンソースであり,任意の目的のためにオープンライセンスの下で無償で配布されるファンデーションエンコーダモデルに貢献する。
本稿では,15億のパラメータを持つ最大パフォーマンス駆動モデルと,1億のパラメータを持つより小さな効率駆動モデルを用いて,ポルトガル語に対する最先端のオープンエンコーダのエコシステムの拡張について述べる。
- 参考スコア(独自算出の注目度): 0.3230831234454389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To foster the neural encoding of Portuguese, this paper contributes
foundation encoder models that represent an expansion of the still very scarce
ecosystem of large language models specifically developed for this language
that are fully open, in the sense that they are open source and openly
distributed for free under an open license for any purpose, thus including
research and commercial usages. Like most languages other than English,
Portuguese is low-resourced in terms of these foundational language resources,
there being the inaugural 900 million parameter Albertina and 335 million
Bertimbau. Taking this couple of models as an inaugural set, we present the
extension of the ecosystem of state-of-the-art open encoders for Portuguese
with a larger, top performance-driven model with 1.5 billion parameters, and a
smaller, efficiency-driven model with 100 million parameters. While achieving
this primary goal, further results that are relevant for this ecosystem were
obtained as well, namely new datasets for Portuguese based on the SuperGLUE
benchmark, which we also distribute openly.
- Abstract(参考訳): ポルトガル語のニューラルエンコーディングを促進するために,本稿では,この言語用に開発されている大規模言語モデルの極めて希少なエコシステムの拡張を表現した基礎エンコーダモデルを提案する。
英語以外のほとんどの言語と同様に、ポルトガル語はこれらの基礎言語資源に関して低リソースであり、最初の9億のパラメータAlbertinaと3億3500万のBertimbauがある。
この2つのモデルを最初のセットとして、150億のパラメータを持つより大きなトップパフォーマンス駆動モデルと、1億のパラメータを持つより小さな効率駆動モデルを備えたポルトガルの最先端オープンエンコーダのエコシステムの拡張について紹介する。
この主要な目標を達成する一方で、このエコシステムに関連するさらなる結果、すなわちSuperGLUEベンチマークに基づいたポルトガル向けの新しいデータセットも得られた。
関連論文リスト
- Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。
本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。
我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:06Z) - PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese [1.2779732438508473]
我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-04-08T09:22:41Z) - Advancing Generative AI for Portuguese with Open Decoder Gerv\'asio PT* [0.38570000254272757]
本稿では,ポルトガル語のニューラルデコーディングにおける新たな技術状態を設定する,完全にオープンなTransformerベースの命令調整デコーダモデルを提案する。
Gerv'asioのすべてのバージョンはオープンソースであり、研究用と商用用の両方のライセンスで無償で配布されている。
論文 参考訳(メタデータ) (2024-02-29T00:19:13Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。