論文の概要: WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation
- arxiv url: http://arxiv.org/abs/2201.05955v1
- Date: Sun, 16 Jan 2022 03:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 08:45:01.360862
- Title: WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation
- Title(参考訳): WANLI: 自然言語推論データセット作成のための作業者とAIコラボレーション
- Authors: Alisa Liu, Swabha Swayamdipta, Noah A. Smith, Yejin Choi
- Abstract要約: 我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
- 参考スコア(独自算出の注目度): 101.00109827301235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recurring challenge of crowdsourcing NLP datasets at scale is that human
writers often rely on repetitive patterns when crafting examples, leading to a
lack of linguistic diversity. We introduce a novel paradigm for dataset
creation based on human and machine collaboration, which brings together the
generative strength of language models and the evaluative strength of humans.
Starting with an existing dataset, MultiNLI, our approach uses dataset
cartography to automatically identify examples that demonstrate challenging
reasoning patterns, and instructs GPT-3 to compose new examples with similar
patterns. Machine generated examples are then automatically filtered, and
finally revised and labeled by human crowdworkers to ensure quality. The
resulting dataset, WANLI, consists of 108,357 natural language inference (NLI)
examples that present unique empirical strengths over existing NLI datasets.
Remarkably, training a model on WANLI instead of MNLI (which is 4 times larger)
improves performance on seven out-of-domain test sets we consider, including by
11% on HANS and 9% on Adversarial NLI. Moreover, combining MNLI with WANLI is
more effective than combining with other augmentation sets that have been
introduced. Our results demonstrate the potential of natural language
generation techniques to curate NLP datasets of enhanced quality and diversity.
- Abstract(参考訳): nlpデータセットを大規模にクラウドソーシングすることの繰り返しの課題は、人間が例を作る際に繰り返しパターンに依存することが少なく、言語多様性の欠如につながる。
我々は,人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入し,言語モデルの生成的強みと人間の評価的強みを組み合わせる。
既存のデータセットであるMultiNLIから,本手法では,挑戦的な推論パターンを示すサンプルを自動的に識別し,GPT-3に同様のパターンで新しいサンプルを作成するように指示する。
マシン生成のサンプルは自動的にフィルタリングされ、最終的に品質を確保するために人間の群衆によって改訂されラベル付けされる。
得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例で構成され、既存のNLIデータセットに対してユニークな経験的強みを示す。
注目すべきは、MNLI(これは4倍大きい)の代わりにWANLIでモデルをトレーニングすることで、HANSで11%、Adversarial NLIで9%を含む7つのドメイン外のテストセットのパフォーマンスが向上することです。
さらに、MNLIとWANLIを組み合わせることは、導入された他の拡張セットと組み合わせるよりも効果的である。
本研究は,自然言語生成手法が品質と多様性を高めるnlpデータセットをキュレートする可能性を示す。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - ViANLI: Adversarial Natural Language Inference for Vietnamese [1.907126872483548]
敵NLIデータセットをNLP研究コミュニティに導入し,その名称をViANLIとした。
このデータセットには、10K以上の前提-仮説ペアが含まれている。
テストセットで最も強力なモデルの精度は48.4%にしか達しなかった。
論文 参考訳(メタデータ) (2024-06-25T16:58:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Polish Natural Language Inference and Factivity -- an Expert-based
Dataset and Benchmarks [0.07734726150561087]
このデータセットはポーランド語で完全に自然言語の発声を含んでいる。
主動詞の頻度および他の言語的特徴に関する代表的なサンプルである。
入力文のみを消費するBERTベースのモデルは、NLI/factiveの複雑さの大部分を捉えていることを示している。
論文 参考訳(メタデータ) (2022-01-10T18:32:55Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。