論文の概要: No Strong Feelings One Way or Another: Re-operationalizing Neutrality in
Natural Language Inference
- arxiv url: http://arxiv.org/abs/2306.09918v1
- Date: Fri, 16 Jun 2023 15:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:12:07.554747
- Title: No Strong Feelings One Way or Another: Re-operationalizing Neutrality in
Natural Language Inference
- Title(参考訳): 強烈な感情がない:自然言語推論における中立性の再操作
- Authors: Animesh Nighojkar and Antonio Laverghetta Jr. and John Licato
- Abstract要約: 自然言語推論(NLI)は、言語モデルの推論推論能力を評価するための基礎的なタスクである。
NLIで使用される標準的な3方向分類スキームは、自然な人間の推論のニュアンスを捉えるモデルの能力を評価するのに、よく知られた欠点がある。
我々は、現在のNLIデータセットにおける中立ラベルの運用は、妥当性が低く、矛盾なく解釈され、少なくとも1つの重要な中立感が無視されることを論じる。
- 参考スコア(独自算出の注目度): 6.485890157501745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Inference (NLI) has been a cornerstone task in evaluating
language models' inferential reasoning capabilities. However, the standard
three-way classification scheme used in NLI has well-known shortcomings in
evaluating models' ability to capture the nuances of natural human reasoning.
In this paper, we argue that the operationalization of the neutral label in
current NLI datasets has low validity, is interpreted inconsistently, and that
at least one important sense of neutrality is often ignored. We uncover the
detrimental impact of these shortcomings, which in some cases leads to
annotation datasets that actually decrease performance on downstream tasks. We
compare approaches of handling annotator disagreement and identify flaws in a
recent NLI dataset that designs an annotator study based on a problematic
operationalization. Our findings highlight the need for a more refined
evaluation framework for NLI, and we hope to spark further discussion and
action in the NLP community.
- Abstract(参考訳): 自然言語推論(nli)は、言語モデルの推論能力を評価する上で重要なタスクである。
しかしながら、NLIで使用される標準的な3方向分類方式は、自然な人間の推論のニュアンスを捉えるモデルの能力を評価する上で、よく知られた欠点がある。
本稿では,現在のnliデータセットにおける中性ラベルの操作性は有効性が低く,矛盾して解釈され,少なくとも一つの重要な中立性感覚は無視されることが多いことを論じる。
これらの欠点による有害な影響を明らかにすることで、ダウンストリームタスクのパフォーマンスを実際に低下させるアノテーションデータセットが生まれる場合もあります。
我々は, 問題のある運用化に基づいてアノテータ研究を設計した最近のNLIデータセットにおいて, アノテーションの不一致を処理し, 欠陥を識別するアプローチを比較した。
以上の結果から,NLP コミュニティのさらなる議論と行動を促すために,NLI のより洗練された評価フレームワークの必要性が浮かび上がっている。
関連論文リスト
- Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Negation Triplet Extraction with Syntactic Dependency and Semantic Consistency [37.99421732397288]
SSENEはマルチタスク学習フレームワークを備えたデコーダアーキテクチャのPLM(Generative Pretrained Language Model)に基づいて構築されている。
我々は,Meituanの現実世界プラットフォームからのユーザレビューに基づいて,高品質な中国語データセットNegCommentを構築した。
論文 参考訳(メタデータ) (2024-04-15T14:28:33Z) - Uncertainty in Natural Language Processing: Sources, Quantification, and
Applications [56.130945359053776]
NLP分野における不確実性関連作業の総合的なレビューを行う。
まず、自然言語の不確実性の原因を、入力、システム、出力の3つのタイプに分類する。
我々は,NLPにおける不確実性推定の課題について論じ,今後の方向性について論じる。
論文 参考訳(メタデータ) (2023-06-05T06:46:53Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Exploring Transitivity in Neural NLI Models through Veridicality [39.845425535943534]
推論関係の推移性に着目する。推論を体系的に描く基本的な性質である。
推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。
現在のNLIモデルは、推移性推論タスクで一貫してうまく機能しないことがわかります。
論文 参考訳(メタデータ) (2021-01-26T11:18:35Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Neural Natural Language Inference Models Partially Embed Theories of
Lexical Entailment and Negation [14.431925736607043]
本研究は, 語彙的含意と否定に焦点をあてた新しい自然主義的データセットであるモノトニック性NLI(MoNLI)について述べる。
行動評価では、汎用NLIデータセットでトレーニングされたモデルは、否定を含むMoNLIの例で体系的に失敗する。
構造評価では,トップパフォーマンスのBERTベースのモデルが,MoNLIの背後にある単調性アルゴリズムを実装することを学習したことを示す。
論文 参考訳(メタデータ) (2020-04-30T07:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。