論文の概要: CreoleVal: Multilingual Multitask Benchmarks for Creoles
- arxiv url: http://arxiv.org/abs/2310.19567v1
- Date: Mon, 30 Oct 2023 14:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:09:56.838847
- Title: CreoleVal: Multilingual Multitask Benchmarks for Creoles
- Title(参考訳): creoleval: creolesのための多言語マルチタスクベンチマーク
- Authors: Heather Lent and Kushal Tatariya and Raj Dabre and Yiyi Chen and
Marcell Fekete and Esther Ploeger and Li Zhou and Hans Erik Heje and Diptesh
Kanojia and Paul Belony and Marcel Bollmann and Lo\"ic Grobol and Miryam de
Lhoneux and Daniel Hershcovich and Michel DeGraff and Anders S{\o}gaard and
Johannes Bjerva
- Abstract要約: CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、機械理解、関係分類、クレオールのための機械翻訳のための全く新しい開発データセットの集合である。
CreoleValの目標は、NLPおよび計算言語学におけるクレオールの研究を強化することである。
- 参考スコア(独自算出の注目度): 28.959775754396844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creoles represent an under-explored and marginalized group of languages, with
few available resources for NLP research. While the genealogical ties between
Creoles and other highly-resourced languages imply a significant potential for
transfer learning, this potential is hampered due to this lack of annotated
data. In this work we present CreoleVal, a collection of benchmark datasets
spanning 8 different NLP tasks, covering up to 28 Creole languages; it is an
aggregate of brand new development datasets for machine comprehension, relation
classification, and machine translation for Creoles, in addition to a practical
gateway to a handful of preexisting benchmarks. For each benchmark, we conduct
baseline experiments in a zero-shot setting in order to further ascertain the
capabilities and limitations of transfer learning for Creoles. Ultimately, the
goal of CreoleVal is to empower research on Creoles in NLP and computational
linguistics. We hope this resource will contribute to technological inclusion
for Creole language users around the globe.
- Abstract(参考訳): クレオールは未開発の言語群であり、nlp研究に利用可能なリソースは少ない。
クレオールと他の高リソース言語との系譜的結びつきは、伝達学習の重要な可能性を示しているが、この注釈付きデータの欠如により、このポテンシャルは妨げられている。
この作業では、最大28のCreole言語をカバーする8つの異なるNLPタスクにまたがるベンチマークデータセットのコレクションであるCreoleValを紹介します。
各ベンチマークについて,ゼロショット設定でベースライン実験を行い,クレオールのトランスファー学習の能力と限界をさらに確認する。
最終的に、CreoleValの目標は、NLPおよび計算言語学におけるCreolesの研究を強化することである。
このリソースが世界中のCreole言語ユーザへの技術的包摂に貢献できることを願っています。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Low-Resourced Machine Translation for Senegalese Wolof Language [0.34376560669160383]
リカレントニューラルネットワーク(RNN)に基づく機械翻訳モデルの実験を行った123,000文からなるWolof/Frenchコーパスを並列に提示する。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
論文 参考訳(メタデータ) (2023-05-01T00:04:19Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Ancestor-to-Creole Transfer is Not a Walk in the Park [9.926231893220061]
我々は大量のデータが手軽に利用できないクレオール言語のための言語モデルを学ぶことを目指している。
標準的な転送手法は、祖先の転送を容易にするものではないことが判明した。
驚くべきことに、他のクレオール以外の言語とは異なり、クレオールに対して非常に異なる2相パターンが出現する。
論文 参考訳(メタデータ) (2022-06-09T09:28:10Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。