論文の概要: JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset
- arxiv url: http://arxiv.org/abs/2212.03419v1
- Date: Wed, 7 Dec 2022 03:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:05:37.396481
- Title: JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset
- Title(参考訳): JamPatoisNLI:ジャマイカのパトワの自然言語推論データセット
- Authors: Ruth-Ann Armstrong, John Hewitt and Christopher Manning
- Abstract要約: JamPatoisNLIは、クレオール言語であるジャマイカのパトワで、自然言語推論のための最初のデータセットを提供する。
最もスポークな低リソース言語の多くはクレオールである。
実験の結果,JamPatoisNLIは非関連言語よりも,比較的優れた学習結果が得られた。
- 参考スコア(独自算出の注目度): 7.940548890754674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: JamPatoisNLI provides the first dataset for natural language inference in a
creole language, Jamaican Patois. Many of the most-spoken low-resource
languages are creoles. These languages commonly have a lexicon derived from a
major world language and a distinctive grammar reflecting the languages of the
original speakers and the process of language birth by creolization. This gives
them a distinctive place in exploring the effectiveness of transfer from large
monolingual or multilingual pretrained models. While our work, along with
previous work, shows that transfer from these models to low-resource languages
that are unrelated to languages in their training set is not very effective, we
would expect stronger results from transfer to creoles. Indeed, our experiments
show considerably better results from few-shot learning of JamPatoisNLI than
for such unrelated languages, and help us begin to understand how the unique
relationship between creoles and their high-resource base languages affect
cross-lingual transfer. JamPatoisNLI, which consists of naturally-occurring
premises and expert-written hypotheses, is a step towards steering research
into a traditionally underserved language and a useful benchmark for
understanding cross-lingual NLP.
- Abstract(参考訳): jampatoisnliはクレオール語で自然言語推論のための最初のデータセットであるジャマイカ語パトワを提供する。
語源の少ない言語の多くはクレオール語である。
これらの言語は、一般的に主要な世界言語から派生した語彙と、原語話者の言語とクレオール化による言語誕生の過程を反映した独特の文法を持っている。
これにより、大きな単言語または多言語事前学習モデルからの移動の有効性を探求する際、彼ら特有の場所となる。
我々の研究は、以前の研究とともに、これらのモデルからトレーニングセットの言語とは無関係な低リソース言語への移行は、あまり効果がないことを示しているが、クレオールへの移行によるより強力な結果が期待できる。
実際、我々の実験は、これらの非関連言語よりもJamPatoisNLIの少数ショット学習によるかなり良い結果を示し、クレオールと高リソースベース言語のユニークな関係が言語間移動にどのように影響するかを理解するのに役立ちます。
JamPatoisNLIは自然に生成された前提と専門家による仮説で構成され、伝統的に保存されていない言語の研究と言語間NLPを理解するための有用なベンチマークへのステップである。
関連論文リスト
- Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - Phylogeny-Inspired Adaptation of Multilingual Models to New Languages [43.62238334380897]
我々は、言語系統情報を用いて、密接に関連する言語を活用する言語間移動を改善する方法を示す。
我々は,多言語(ゲルマン語,ウルリック語,トゥピ語,ウト・アステカン語)の言語をアダプタベースで学習し,構文的・意味的タスクの評価を行う。
論文 参考訳(メタデータ) (2022-05-19T15:49:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。