論文の概要: Evaluation Benchmarks for Spanish Sentence Representations
- arxiv url: http://arxiv.org/abs/2204.07571v1
- Date: Fri, 15 Apr 2022 17:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:41:38.866746
- Title: Evaluation Benchmarks for Spanish Sentence Representations
- Title(参考訳): スペイン語文表現の評価ベンチマーク
- Authors: Vladimir Araujo, Andr\'es Carvallo, Souvik Kundu, Jos\'e Ca\~nete,
Marcelo Mendoza, Robert E. Mercer, Felipe Bravo-Marquez, Marie-Francine
Moens, Alvaro Soto
- Abstract要約: 本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
- 参考スコア(独自算出の注目度): 24.162683655834847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the success of pre-trained language models, versions of languages
other than English have been released in recent years. This fact implies the
need for resources to evaluate these models. In the case of Spanish, there are
few ways to systematically assess the models' quality. In this paper, we narrow
the gap by building two evaluation benchmarks. Inspired by previous work
(Conneau and Kiela, 2018; Chen et al., 2019), we introduce Spanish SentEval and
Spanish DiscoEval, aiming to assess the capabilities of stand-alone and
discourse-aware sentence representations, respectively. Our benchmarks include
considerable pre-existing and newly constructed datasets that address different
tasks from various domains. In addition, we evaluate and analyze the most
recent pre-trained Spanish language models to exhibit their capabilities and
limitations. As an example, we discover that for the case of discourse
evaluation tasks, mBERT, a language model trained on multiple languages,
usually provides a richer latent representation than models trained only with
documents in Spanish. We hope our contribution will motivate a fairer, more
comparable, and less cumbersome way to evaluate future Spanish language models.
- Abstract(参考訳): 事前訓練された言語モデルの成功により、近年では英語以外の言語バージョンもリリースされている。
この事実は、これらのモデルを評価するリソースの必要性を示している。
スペイン語の場合、モデルの品質を体系的に評価する方法はほとんどない。
本稿では,2つの評価ベンチマークを構築し,そのギャップを狭める。
先行研究(Conneau and Kiela, 2018; Chen et al., 2019)に触発されて, スペイン語のSentEvalとスペイン語のDiscoEvalを紹介した。
私たちのベンチマークには、さまざまなドメインから異なるタスクに対処する、かなり既存かつ新しく構築されたデータセットが含まれています。
さらに,最新の事前学習したスペイン語モデルの評価と分析を行い,その能力と限界について検討した。
例えば、談話評価タスクの場合、複数の言語で訓練された言語モデルmBERTは、通常、スペイン語の文書でのみ訓練されたモデルよりもリッチな潜在表現を提供する。
私たちの貢献は、将来のスペイン語モデルを評価するための、より公平で、より匹敵する、より面倒な方法に動機づけられることを願っています。
関連論文リスト
- A User-Centered Evaluation of Spanish Text Simplification [6.046875672600245]
生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
論文 参考訳(メタデータ) (2023-08-15T03:49:59Z) - Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。