論文の概要: CreoleVal: Multilingual Multitask Benchmarks for Creoles
- arxiv url: http://arxiv.org/abs/2310.19567v3
- Date: Mon, 6 May 2024 15:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:35:15.986660
- Title: CreoleVal: Multilingual Multitask Benchmarks for Creoles
- Title(参考訳): CreoleVal: クリーンのためのマルチ言語マルチタスクベンチマーク
- Authors: Heather Lent, Kushal Tatariya, Raj Dabre, Yiyi Chen, Marcell Fekete, Esther Ploeger, Li Zhou, Ruth-Ann Armstrong, Abee Eijansantos, Catriona Malau, Hans Erik Heje, Ernests Lavrinovics, Diptesh Kanojia, Paul Belony, Marcel Bollmann, Loïc Grobol, Miryam de Lhoneux, Daniel Hershcovich, Michel DeGraff, Anders Søgaard, Johannes Bjerva,
- Abstract要約: CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
- 参考スコア(独自算出の注目度): 46.50887462355172
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creoles represent an under-explored and marginalized group of languages, with few available resources for NLP research.While the genealogical ties between Creoles and a number of highly-resourced languages imply a significant potential for transfer learning, this potential is hampered due to this lack of annotated data. In this work we present CreoleVal, a collection of benchmark datasets spanning 8 different NLP tasks, covering up to 28 Creole languages; it is an aggregate of novel development datasets for reading comprehension, relation classification, and machine translation for Creoles, in addition to a practical gateway to a handful of preexisting benchmarks. For each benchmark, we conduct baseline experiments in a zero-shot setting in order to further ascertain the capabilities and limitations of transfer learning for Creoles. Ultimately, we see CreoleVal as an opportunity to empower research on Creoles in NLP and computational linguistics, and in general, a step towards more equitable language technology around the globe.
- Abstract(参考訳): クレオールは、NLP研究のために利用可能な資源がほとんどない未調査の言語群であり、クレオールと多くの高リソース言語との系譜的結びつきは、伝達学習の重要な可能性を示しているが、この注釈付きデータが欠如していることから、このポテンシャルは妨げられている。
この研究では、最大28のCreole言語をカバーする8つの異なるNLPタスクにまたがるベンチマークデータセットのコレクションであるCreoleValを紹介します。
ベンチマーク毎にゼロショット設定でベースライン実験を行い、クレオールの移動学習の能力と限界をさらに確認する。
最終的に、CreoleValは、NLPおよび計算言語学におけるクレオールの研究を強化する機会であり、一般的には、世界中のより公平な言語技術への一歩であると考えています。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Low-Resourced Machine Translation for Senegalese Wolof Language [0.34376560669160383]
リカレントニューラルネットワーク(RNN)に基づく機械翻訳モデルの実験を行った123,000文からなるWolof/Frenchコーパスを並列に提示する。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
論文 参考訳(メタデータ) (2023-05-01T00:04:19Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Ancestor-to-Creole Transfer is Not a Walk in the Park [9.926231893220061]
我々は大量のデータが手軽に利用できないクレオール言語のための言語モデルを学ぶことを目指している。
標準的な転送手法は、祖先の転送を容易にするものではないことが判明した。
驚くべきことに、他のクレオール以外の言語とは異なり、クレオールに対して非常に異なる2相パターンが出現する。
論文 参考訳(メタデータ) (2022-06-09T09:28:10Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。