Fugu-MT 論文翻訳(概要): What Can We Learn from Collective Human Opinions on Natural Language Inference Data?

論文の概要: What Can We Learn from Collective Human Opinions on Natural Language Inference Data?

arxiv url: http://arxiv.org/abs/2010.03532v2
Date: Thu, 8 Oct 2020 19:32:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 21:43:38.071100
Title: What Can We Learn from Collective Human Opinions on Natural Language Inference Data?
Title（参考訳）: 自然言語推論データに関する人間集団の意見から何が学べるだろうか?
Authors: Yixin Nie, Xiang Zhou, Mohit Bansal
Abstract要約: ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
参考スコア（独自算出の注目度）: 88.90490998032429
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the subjective nature of many NLP tasks, most NLU evaluations have focused on using the majority label with presumably high agreement as the ground truth. Less attention has been paid to the distribution of human opinions. We collect ChaosNLI, a dataset with a total of 464,500 annotations to study Collective HumAn OpinionS in oft-used NLI evaluation sets. This dataset is created by collecting 100 annotations per example for 3,113 examples in SNLI and MNLI and 1,532 examples in Abductive-NLI. Analysis reveals that: (1) high human disagreement exists in a noticeable amount of examples in these datasets; (2) the state-of-the-art models lack the ability to recover the distribution over human labels; (3) models achieve near-perfect accuracy on the subset of data with a high level of human agreement, whereas they can barely beat a random guess on the data with low levels of human agreement, which compose most of the common errors made by state-of-the-art models on the evaluation sets. This questions the validity of improving model performance on old metrics for the low-agreement part of evaluation datasets. Hence, we argue for a detailed examination of human agreement in future data collection efforts, and evaluating model outputs against the distribution over collective human opinions. The ChaosNLI dataset and experimental scripts are available at https://github.com/easonnie/ChaosNLI
Abstract（参考訳）: 多くのNLPタスクの主観的な性質にもかかわらず、ほとんどのNLU評価は、基礎となる真実として、おそらく高い合意を持つ大多数のラベルの使用に焦点を当てている。人間の意見の分布にはあまり注意が払われていない。合計464,500のアノテーションを持つデータセットであるChaosNLIを収集し, oft-useed NLI評価セットの集合HumAnオピニオンSについて検討する。このデータセットは,snli と mnli の 3,113 例と abductive-nli の 1,532 例に対して,100 例のアノテーションを収集したものだ。分析の結果、(1) 高度な人間の不一致は、これらのデータセットの顕著な例に存在し、(2) 最先端のモデルは、人間のラベル上の分布を回復する能力が欠けている、(3) モデルは、人間の合意のレベルが高いデータのサブセット上でほぼ完全な精度を達成するが、一方で、評価セット上の最先端のモデルによって生じる一般的なエラーの大部分を構成する、人間の合意の低レベルのデータでは、ランダムな推測をほとんど打ち負かすことができない、ということが判明した。評価データセットの低予算部分に対する古いメトリクスのモデルパフォーマンス向上の有効性に疑問を呈する。そこで我々は,今後のデータ収集における人的合意の詳細な検討と,人的意見の集合的分布に対するモデル出力の評価について論じる。 ChaosNLIデータセットと実験スクリプトはhttps://github.com/easonnie/ChaosNLIで入手できる。

関連論文リスト

Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文参考訳（メタデータ） (2025-02-07T10:01:32Z)
AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference [22.13596750775719]
そこで本研究では,人間の要約選好アライメントフレームワークAlignSumについて紹介する。 AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。
論文参考訳（メタデータ） (2024-10-01T05:14:48Z)
Does Data-Efficient Generalization Exacerbate Bias in Foundation Models? [2.298227866545911]
ファンデーションモデルは、様々なドメインでラベル効率を持つ堅牢なモデルとして登場した。事前学習中に機密属性の存在に偏った大量のラベル付きデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。本研究は,ブラジルの多ラベル眼科学データセットを微調整する際のファンデーションモデルのバイアスについて検討する。
論文参考訳（メタデータ） (2024-08-28T22:14:44Z)
Designing NLP Systems That Adapt to Diverse Worldviews [4.915541242112533]
既存のNLPデータセットは、ラベルを集約したり、不一致をフィルタリングすることで、これを曖昧にすることが多い、と私たちは主張する。我々は、アノテータの人口統計、値、ラベルの正当化をキャプチャするデータセットを構築するという、パースペクティブなアプローチを提案する。
論文参考訳（メタデータ） (2024-05-18T06:48:09Z)
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-11T18:17:43Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Automatically Identifying Semantic Bias in Crowdsourced Natural Language Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文参考訳（メタデータ） (2021-12-16T22:49:01Z)
COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2021-06-02T06:31:55Z)
NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文参考訳（メタデータ） (2021-04-10T12:28:07Z)
Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文参考訳（メタデータ） (2020-04-21T16:54:57Z)
Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。 10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文参考訳（メタデータ） (2020-04-06T14:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。