論文の概要: Mining Knowledge for Natural Language Inference from Wikipedia
Categories
- arxiv url: http://arxiv.org/abs/2010.01239v1
- Date: Sat, 3 Oct 2020 00:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 09:00:52.712329
- Title: Mining Knowledge for Natural Language Inference from Wikipedia
Categories
- Title(参考訳): Wikipediaカテゴリからの自然言語推論のためのマイニング知識
- Authors: Mingda Chen, Zewei Chu, Karl Stratos, Kevin Gimpel
- Abstract要約: NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
- 参考スコア(独自算出の注目度): 53.26072815839198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate lexical entailment (LE) and natural language inference (NLI) often
require large quantities of costly annotations. To alleviate the need for
labeled data, we introduce WikiNLI: a resource for improving model performance
on NLI and LE tasks. It contains 428,899 pairs of phrases constructed from
naturally annotated category hierarchies in Wikipedia. We show that we can
improve strong baselines such as BERT and RoBERTa by pretraining them on
WikiNLI and transferring the models on downstream tasks. We conduct systematic
comparisons with phrases extracted from other knowledge bases such as WordNet
and Wikidata to find that pretraining on WikiNLI gives the best performance. In
addition, we construct WikiNLI in other languages, and show that pretraining on
them improves performance on NLI tasks of corresponding languages.
- Abstract(参考訳): 正確な語彙制限 (LE) と自然言語推論 (NLI) は、しばしば大量の高価なアノテーションを必要とする。
ラベル付きデータの必要性を軽減するため、NLIおよびLEタスクのモデルパフォーマンスを改善するリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示す。
我々は,WordNetやWikidataなどの知識ベースから抽出したフレーズと体系的に比較し,WikiNLIでの事前学習が最高のパフォーマンスをもたらすことを確認する。
さらに,他の言語でWikiNLIを構築し,それを用いた事前学習により,対応する言語のNLIタスクの性能が向上することを示す。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - ProMap: Effective Bilingual Lexicon Induction via Language Model
Prompting [22.743097175747575]
バイリンガル誘導(BLI)の新しいアプローチであるProMapを紹介する。
ProMapは、言語モデルの効果的なパッドドプロンプトと、独立して使用する場合に優れたパフォーマンスを実現するシード辞書に依存している。
リッチ・ソース言語とロー・ソース言語の両方で評価すると、ProMapは一貫して最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-10-28T18:33:24Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。