Fugu-MT 論文翻訳(概要): ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment

論文の概要: ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment

arxiv url: http://arxiv.org/abs/2305.14463v2
Date: Wed, 15 Nov 2023 15:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 20:24:53.625871
Title: ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment
Title（参考訳）: ReadMe++: マルチドメイン可読性評価のための多言語言語モデルのベンチマーク
Authors: Tarek Naous, Michael J. Ryan, Anton Lavrouk, Mohit Chandra, Wei Xu
Abstract要約: 自動多言語可読性評価のための大規模言語モデルの体系的研究と包括的評価を行う。我々は、アラビア語、英語、フランス語、ヒンディー語、ロシア語で9757文の人間のアノテーションを付加した多言語マルチドメインデータセットであるReadMe++を構築した。実験の結果、ReadMe++で微調整されたモデルは、単一ドメインデータセットでトレーニングされたモデルよりも優れていることがわかった。
参考スコア（独自算出の注目度）: 13.462025799236816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a systematic study and comprehensive evaluation of large language models for automatic multilingual readability assessment. In particular, we construct ReadMe++, a multilingual multi-domain dataset with human annotations of 9757 sentences in Arabic, English, French, Hindi, and Russian collected from 112 different data sources. ReadMe++ offers more domain and language diversity than existing readability datasets, making it ideal for benchmarking multilingual and non-English language models (including mBERT, XLM-R, mT5, Llama-2, GPT-4, etc.) in the supervised, unsupervised, and few-shot prompting settings. Our experiments reveal that models fine-tuned on ReadMe++ outperform those trained on single-domain datasets, showcasing superior performance on multi-domain readability assessment and cross-lingual transfer capabilities. We also compare to traditional readability metrics (such as Flesch-Kincaid Grade Level and Open Source Metric for Measuring Arabic Narratives), as well as the state-of-the-art unsupervised metric RSRS (Martinc et al., 2021). We will make our data and code publicly available at: https://github.com/tareknaous/readme.
Abstract（参考訳）: 自動多言語可読性評価のための大規模言語モデルの体系的研究と包括的評価を行う。特に,112の異なるデータソースから収集したアラビア語,英語,フランス語,ヒンディー語,ロシア語の9757文の人間のアノテーションを備えた多言語多言語データセットreadme++を構築した。 ReadMe++は、既存の可読性データセットよりもドメインと言語の多様性を提供しており、教師付き、教師なし、数発のプロンプト設定で多言語および非英語(mBERT、XLM-R、mT5、Llama-2、GPT-4など)モデルのベンチマークに最適である。実験により,readme++を用いたモデルは,単一ドメインデータセットでトレーニングされたモデルよりも微調整され,多領域可読性評価と言語間転送能力において優れた性能を示した。また、従来の可読性指標(Flesch-Kincaid Grade Level や Open Source Metric for Measuring Arabic Narratives など)や、最先端の教師なしメトリクスRSRS(Martinc et al., 2021)と比較する。データとコードはhttps://github.com/tareknaous/readme.com/で公開します。

関連論文リスト

MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Automatic Discrimination of Human and Neural Machine Translation in Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文参考訳（メタデータ） (2023-05-31T11:41:24Z)
How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文参考訳（メタデータ） (2023-05-22T17:47:41Z)
Detecting Languages Unintelligible to Multilingual Models through Local Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文参考訳（メタデータ） (2022-11-09T16:45:16Z)
Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。本稿では,ラベルのないデータを利用して性能を向上する。
論文参考訳（メタデータ） (2021-05-08T08:04:30Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。