論文の概要: PrOnto: Language Model Evaluations for 859 Languages
- arxiv url: http://arxiv.org/abs/2305.12612v1
- Date: Mon, 22 May 2023 00:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:15:47.667913
- Title: PrOnto: Language Model Evaluations for 859 Languages
- Title(参考訳): PrOnto:859言語に対する言語モデル評価
- Authors: Luke Gessler
- Abstract要約: 本稿では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。
この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。
859年の新約聖書翻訳1051件に適用し公開する。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation datasets are critical resources for measuring the quality of
pretrained language models. However, due to the high cost of dataset
annotation, these resources are scarce for most languages other than English,
making it difficult to assess the quality of language models. In this work, we
present a new method for evaluation dataset construction which enables any
language with a New Testament translation to receive a suite of evaluation
datasets suitable for pretrained language model evaluation. The method
critically involves aligning verses with those in the New Testament portion of
English OntoNotes, and then projecting annotations from English to the target
language, with no manual annotation required. We apply this method to 1051 New
Testament translations in 859 and make them publicly available. Additionally,
we conduct experiments which demonstrate the efficacy of our method for
creating evaluation tasks which can assess language model quality.
- Abstract(参考訳): 評価データセットは、事前訓練された言語モデルの品質を測定するための重要なリソースである。
しかし、データセットアノテーションのコストが高いため、これらのリソースは英語以外の言語では不足しており、言語モデルの品質を評価するのが困難である。
本研究では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。
この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。
859年の新約聖書翻訳1051件に適用し公開する。
さらに,言語モデルの品質を評価できる評価タスクを作成するための手法の有効性を示す実験を行った。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Deep learning model for Mongolian Citizens Feedback Analysis using Word
Vector Embeddings [0.0]
本研究では,2つの単語埋め込みを用いたモンゴル語のフィードバック分類について検討した。
2012年から2018年にかけて収集されたCyrillicのフィードバックデータを使用します。
その結果, 単語の埋め込みは, 深層学習に基づく提案モデルを改善することが示唆された。
論文 参考訳(メタデータ) (2023-02-23T14:49:31Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。