論文の概要: BLUEX: A benchmark based on Brazilian Leading Universities Entrance
eXams
- arxiv url: http://arxiv.org/abs/2307.05410v1
- Date: Tue, 11 Jul 2023 16:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:06:38.053423
- Title: BLUEX: A benchmark based on Brazilian Leading Universities Entrance
eXams
- Title(参考訳): BLUEX:ブラジルの先進大学入学eXamsに基づくベンチマーク
- Authors: Thales Sales Almeida, Thiago Laitz, Giovana K. Bon\'as, Rodrigo
Nogueira
- Abstract要約: ブラジルの2大大学(UNI CAMPとUSP)の入学試験のデータセットであるBLUEXを紹介する。
データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。
我々は、最先端のLMを用いた実験を通じて、ポルトガル語の自然言語理解と推論の最先端化の可能性を実証するベンチマークを構築した。
- 参考スコア(独自算出の注目度): 4.9069311006119865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One common trend in recent studies of language models (LMs) is the use of
standardized tests for evaluation. However, despite being the fifth most spoken
language worldwide, few such evaluations have been conducted in Portuguese.
This is mainly due to the lack of high-quality datasets available to the
community for carrying out evaluations in Portuguese. To address this gap, we
introduce the Brazilian Leading Universities Entrance eXams (BLUEX), a dataset
of entrance exams from the two leading universities in Brazil: UNICAMP and USP.
The dataset includes annotated metadata for evaluating the performance of NLP
models on a variety of subjects. Furthermore, BLUEX includes a collection of
recently administered exams that are unlikely to be included in the training
data of many popular LMs as of 2023. The dataset is also annotated to indicate
the position of images in each question, providing a valuable resource for
advancing the state-of-the-art in multimodal language understanding and
reasoning. We describe the creation and characteristics of BLUEX and establish
a benchmark through experiments with state-of-the-art LMs, demonstrating its
potential for advancing the state-of-the-art in natural language understanding
and reasoning in Portuguese. The data and relevant code can be found at
https://github.com/Portuguese-Benchmark-Datasets/BLUEX
- Abstract(参考訳): 最近の言語モデル(LM)の研究でよく見られる傾向は、評価に標準化されたテストを使うことである。
しかし、世界第5位の言語であるにもかかわらず、そのような評価はポルトガル語ではほとんど行われていない。
これは主に、ポルトガルでの評価を行うためにコミュニティが利用できる高品質なデータセットが欠如しているためである。
このギャップに対処するため,ブラジルの2大大学(UNICAMPとUSP)の入学試験データセットであるBLUEX(Leading Universities Entrance eXams)を紹介した。
データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。
さらに、BLUEXは2023年現在、多くの人気のあるLMのトレーニングデータに含まれない、最近管理された試験のコレクションを含んでいる。
データセットはまた、各質問における画像の位置を示すように注釈付けされており、マルチモーダル言語理解と推論の最先端化に有用なリソースを提供する。
我々は、BLUEXの作成と特徴を説明し、最先端のLMによる実験を通じてベンチマークを確立し、ポルトガル語の自然言語理解と推論における最先端の進歩の可能性を示す。
データと関連するコードはhttps://github.com/Portuguese-Benchmark-Datasets/BLUEXで確認できる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。
本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。
我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:06Z) - XNLIeu: a dataset for cross-lingual NLI in Basque [14.788692648660797]
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
論文 参考訳(メタデータ) (2024-04-10T13:19:56Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers [0.0]
この研究は、古典的(バグ・オブ・ワード)から最先端(トランスフォーマーベース)NLPモデルまで含んでいる。
本研究の目的は,ブラジルポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする埋め込みアプローチに関する総合的な実験的研究を提供することである。
論文 参考訳(メタデータ) (2022-12-01T15:24:19Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。