論文の概要: Towards Massively Multi-domain Multilingual Readability Assessment
- arxiv url: http://arxiv.org/abs/2305.14463v1
- Date: Tue, 23 May 2023 18:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:54:33.078887
- Title: Towards Massively Multi-domain Multilingual Readability Assessment
- Title(参考訳): マルチドメイン多言語可読性評価に向けて
- Authors: Tarek Naous, Michael J. Ryan, Mohit Chandra, Wei Xu
- Abstract要約: 自動可読性評価のための多言語データセットReadMe++を提案する。
アラビア語、英語、ヒンディー語で6,330文の注釈付きデータセットを64の異なるテキスト領域から収集する。
実験により, ReadMe++ を用いて微調整したモデルにより, 強い言語間移動能力と未知の領域への一般化が実現された。
- 参考スコア(独自算出の注目度): 13.49340175210367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReadMe++, a massively multi-domain multilingual dataset for
automatic readability assessment. Prior work on readability assessment has been
mostly restricted to the English language and one or two text domains.
Additionally, the readability levels of sentences used in many previous
datasets are assumed on the document-level other than sentence-level, which
raises doubt about the quality of previous evaluations. We address those gaps
in the literature by providing an annotated dataset of 6,330 sentences in
Arabic, English, and Hindi collected from 64 different domains of text. Unlike
previous datasets, ReadMe++ offers more domain and language diversity and is
manually annotated at a sentence level using the Common European Framework of
Reference for Languages (CEFR) and through a Rank-and-Rate annotation framework
that reduces subjectivity in annotation. Our experiments demonstrate that
models fine-tuned using ReadMe++ achieve strong cross-lingual transfer
capabilities and generalization to unseen domains. ReadMe++ will be made
publicly available to the research community.
- Abstract(参考訳): 自動可読性評価のための多言語データセットReadMe++を提案する。
可読性評価に関する以前の研究は、主に英語と1つか2つのテキストドメインに限定されていた。
さらに、多くの先行データセットで使用される文の可読性レベルを文レベル以外の文書レベルと仮定し、過去の評価の質に疑問を呈する。
アラビア語、英語、ヒンディー語の6,330文の注釈付きデータセットを64の異なるテキスト領域から収集することで、これらのギャップに対処する。
以前のデータセットとは異なり、ReadMe++はよりドメインと言語の多様性を提供し、Common European Framework of Reference for Languages (CEFR)とアノテーションの主観性を低下させるRan-and-Rateアノテーションフレームワークを使用して、文レベルで手動で注釈付けされる。
実験により, ReadMe++ を用いて微調整したモデルにより, 強い言語間移動能力と未知の領域への一般化が実現された。
ReadMe++は研究コミュニティに公開される予定だ。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。