論文の概要: Towards Massively Multi-domain Multilingual Readability Assessment
- arxiv url: http://arxiv.org/abs/2305.14463v1
- Date: Tue, 23 May 2023 18:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:54:33.078887
- Title: Towards Massively Multi-domain Multilingual Readability Assessment
- Title(参考訳): マルチドメイン多言語可読性評価に向けて
- Authors: Tarek Naous, Michael J. Ryan, Mohit Chandra, Wei Xu
- Abstract要約: 自動可読性評価のための多言語データセットReadMe++を提案する。
アラビア語、英語、ヒンディー語で6,330文の注釈付きデータセットを64の異なるテキスト領域から収集する。
実験により, ReadMe++ を用いて微調整したモデルにより, 強い言語間移動能力と未知の領域への一般化が実現された。
- 参考スコア(独自算出の注目度): 13.49340175210367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReadMe++, a massively multi-domain multilingual dataset for
automatic readability assessment. Prior work on readability assessment has been
mostly restricted to the English language and one or two text domains.
Additionally, the readability levels of sentences used in many previous
datasets are assumed on the document-level other than sentence-level, which
raises doubt about the quality of previous evaluations. We address those gaps
in the literature by providing an annotated dataset of 6,330 sentences in
Arabic, English, and Hindi collected from 64 different domains of text. Unlike
previous datasets, ReadMe++ offers more domain and language diversity and is
manually annotated at a sentence level using the Common European Framework of
Reference for Languages (CEFR) and through a Rank-and-Rate annotation framework
that reduces subjectivity in annotation. Our experiments demonstrate that
models fine-tuned using ReadMe++ achieve strong cross-lingual transfer
capabilities and generalization to unseen domains. ReadMe++ will be made
publicly available to the research community.
- Abstract(参考訳): 自動可読性評価のための多言語データセットReadMe++を提案する。
可読性評価に関する以前の研究は、主に英語と1つか2つのテキストドメインに限定されていた。
さらに、多くの先行データセットで使用される文の可読性レベルを文レベル以外の文書レベルと仮定し、過去の評価の質に疑問を呈する。
アラビア語、英語、ヒンディー語の6,330文の注釈付きデータセットを64の異なるテキスト領域から収集することで、これらのギャップに対処する。
以前のデータセットとは異なり、ReadMe++はよりドメインと言語の多様性を提供し、Common European Framework of Reference for Languages (CEFR)とアノテーションの主観性を低下させるRan-and-Rateアノテーションフレームワークを使用して、文レベルで手動で注釈付けされる。
実験により, ReadMe++ を用いて微調整したモデルにより, 強い言語間移動能力と未知の領域への一般化が実現された。
ReadMe++は研究コミュニティに公開される予定だ。
関連論文リスト
- MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - How do languages influence each other? Studying cross-lingual data
sharing during LLM fine-tuning [16.8212280804151]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。