論文の概要: FarsTail: A Persian Natural Language Inference Dataset
- arxiv url: http://arxiv.org/abs/2009.08820v2
- Date: Thu, 8 Jul 2021 15:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:00:04.260455
- Title: FarsTail: A Persian Natural Language Inference Dataset
- Title(参考訳): FarsTail: ペルシアの自然言語推論データセット
- Authors: Hossein Amirkhani, Mohammad AzariJafari, Zohreh Pourjafari, Soroush
Faridan-Jahromi, Zeinab Kouhkan, Azadeh Amirak
- Abstract要約: 自然言語推論(NLI)は、自然言語処理(NLP)の中心的なタスクの一つである。
我々はペルシア語でNLIタスクのための新しいデータセット(Farsiとしても知られる)を提示する。
FarsTailという名前のこのデータセットには、ペルシア語とインデックスされたフォーマットの両方で提供される10,367のサンプルが含まれている。
- 参考スコア(独自算出の注目度): 1.3048920509133808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language inference (NLI) is known as one of the central tasks in
natural language processing (NLP) which encapsulates many fundamental aspects
of language understanding. With the considerable achievements of data-hungry
deep learning methods in NLP tasks, a great amount of effort has been devoted
to develop more diverse datasets for different languages. In this paper, we
present a new dataset for the NLI task in the Persian language, also known as
Farsi, which is one of the dominant languages in the Middle East. This dataset,
named FarsTail, includes 10,367 samples which are provided in both the Persian
language as well as the indexed format to be useful for non-Persian
researchers. The samples are generated from 3,539 multiple-choice questions
with the least amount of annotator interventions in a way similar to the
SciTail dataset. A carefully designed multi-step process is adopted to ensure
the quality of the dataset. We also present the results of traditional and
state-of-the-art methods on FarsTail including different embedding methods such
as word2vec, fastText, ELMo, BERT, and LASER, as well as different modeling
approaches such as DecompAtt, ESIM, HBMP, and ULMFiT to provide a solid
baseline for the future research. The best obtained test accuracy is 83.38%
which shows that there is a big room for improving the current methods to be
useful for real-world NLP applications in different languages. We also
investigate the extent to which the models exploit superficial clues, also
known as dataset biases, in FarsTail, and partition the test set into easy and
hard subsets according to the success of biased models. The dataset is
available at https://github.com/dml-qom/FarsTail
- Abstract(参考訳): 自然言語推論(NLI)は、自然言語理解の多くの基本的な側面をカプセル化した自然言語処理(NLP)の中心的なタスクの1つとして知られている。
NLPタスクにおけるデータハングリーなディープラーニング手法のかなりの成果により、さまざまな言語のためのより多様なデータセットの開発に多大な努力が注がれている。
本稿では,ペルシア語におけるNLIタスクのための新しいデータセットについて述べる。
FarsTailという名前のこのデータセットには、ペルシア語とペルシャ語以外の研究者に有用なインデックス付きフォーマットの両方で提供される10,367のサンプルが含まれている。
サンプルは、SciTailデータセットと似た方法で、アノテータの介入が最小限である3,539の多重選択質問から生成される。
データセットの品質を保証するために、慎重に設計されたマルチステッププロセスが採用されている。
また,word2vec, fasttext, elmo, bert, laser などの様々な埋め込み手法,decompatt, esim, hbmp, ulmfit といった様々なモデリング手法を含む,farstail における従来および最先端の手法の結果を提示し,今後の研究のための確固たるベースラインを提供する。
最もよく得られたテスト精度は83.38%であり、様々な言語における実世界のNLPアプリケーションに有用な方法を改善する大きな余地があることが示されている。
また,このモデルが表層的手がかり(データセットバイアスとしても知られる)をどのように活用しているかを遠方から調査し,偏りのあるモデルの成功に応じてテストセットを容易かつハードなサブセットに分割する。
データセットはhttps://github.com/dml-qom/FarsTailで公開されている。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Izindaba-Tindzaba: Machine learning news categorisation for Long and
Short Text for isiZulu and Siswati [1.666378501554705]
南アフリカの言語は低資源言語に分類される。
この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
論文 参考訳(メタデータ) (2023-06-12T21:02:12Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。