Fugu-MT 論文翻訳(概要): PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese

論文の概要: PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese

arxiv url: http://arxiv.org/abs/2404.05333v3
Date: Wed, 8 May 2024 19:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 17:29:35.221275
Title: PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese
Title（参考訳）: PortULAN ExtraGLUEデータセットとモデル:ポルトガルのニューラル処理のためのベンチマークを開始する
Authors: Tomás Osório, Bernardo Leite, Henrique Lopes Cardoso, Luís Gomes, João Rodrigues, Rodrigo Santos, António Branco,
Abstract要約: 我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
参考スコア（独自算出の注目度）: 1.2779732438508473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Leveraging research on the neural modelling of Portuguese, we contribute a collection of datasets for an array of language processing tasks and a corresponding collection of fine-tuned neural language models on these downstream tasks. To align with mainstream benchmarks in the literature, originally developed in English, and to kick start their Portuguese counterparts, the datasets were machine-translated from English with a state-of-the-art translation engine. The resulting PORTULAN ExtraGLUE benchmark is a basis for research on Portuguese whose improvement can be pursued in future work. Similarly, the respective fine-tuned neural language models, developed with a low-rank adaptation approach, are made available as baselines that can stimulate future work on the neural processing of Portuguese. All datasets and models have been developed and are made available for two variants of Portuguese: European and Brazilian.
Abstract（参考訳）: ポルトガル語のニューラルモデリングの研究を活用して、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラル言語モデルのコレクションをコントリビュートする。もともと英語で開発された文献の主流ベンチマークと一致し、ポルトガル語版を起動するために、データセットは英語から最先端の翻訳エンジンで機械翻訳された。その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。同様に、低ランク適応アプローチで開発されたそれぞれの微調整されたニューラルネットワークモデルは、ポルトガル語のニューラル処理に関する将来の研究を刺激するベースラインとして利用できる。すべてのデータセットとモデルが開発され、ポルトガルの2つの変種(ヨーロッパとブラジル)で利用可能である。

関連論文リスト

Enhancing Portuguese Variety Identification with Cross-Domain Approaches [2.31011809034817]
ヨーロッパとブラジルのポルトガル語を識別するクロスドメイン言語バラエティ識別子(LVI)を開発した。この研究はポルトガルの2つの品種に焦点を当てているが、我々の貢献は他の品種や言語にも拡張できる。
論文参考訳（メタデータ） (2025-02-20T09:31:48Z)
Tradutor: Building a Variety Specific Translation Model [3.976102757693942]
ポルトガル語に特化された最初のオープンソース翻訳モデルを紹介します。私たちの最良のモデルは、既存のポルトガル語のオープンソース翻訳システムを超えています。データセット、モデル、コードを公開することにより、さらなる研究を支援し、奨励することを目指しています。
論文参考訳（メタデータ） (2025-02-20T09:20:59Z)
Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文参考訳（メタデータ） (2024-11-12T15:06:06Z)
From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。 2つの変種間での資源の入手にはかなりの不均衡がある。この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文参考訳（メタデータ） (2024-08-14T10:58:48Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。 Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。 Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2024-02-20T12:36:40Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。 In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文参考訳（メタデータ） (2024-01-05T17:15:01Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Summarize and Generate to Back-translate: Unsupervised Translation of Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。コード要約と生成による逆翻訳を提案する。提案手法は最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2022-05-23T08:20:41Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Transformers and Transfer Learning for Improving Portuguese Semantic Role Labeling [2.9005223064604078]
低リソース言語、特にポルトガル語の場合、現在利用可能なSRLモデルは、トレーニングデータの不足によって妨げられます。トレーニング済みのBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
論文参考訳（メタデータ） (2021-01-04T19:56:01Z)
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文参考訳（メタデータ） (2020-10-07T03:57:54Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。