論文の概要: Semantic Sensitivities and Inconsistent Predictions: Measuring the
Fragility of NLI Models
- arxiv url: http://arxiv.org/abs/2401.14440v2
- Date: Wed, 31 Jan 2024 10:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:51:11.587863
- Title: Semantic Sensitivities and Inconsistent Predictions: Measuring the
Fragility of NLI Models
- Title(参考訳): 意味的感度と矛盾予測:NLIモデルの脆弱性の測定
- Authors: Erik Arakelyan, Zhaoqi Liu, Isabelle Augenstein
- Abstract要約: State-of-the-art Natural Language Inference (NLI)モデルは、表面形状の変化を保存するマイナーセマンティクスに敏感である。
セマンティックな感度は、平均$textbfin-$と$textbfout-of-$ドメイン設定よりも平均$12.92%と$23.71%のパフォーマンス劣化を引き起こす。
- 参考スコア(独自算出の注目度): 44.56781176879151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies of the emergent capabilities of transformer-based Natural
Language Understanding (NLU) models have indicated that they have an
understanding of lexical and compositional semantics. We provide evidence that
suggests these claims should be taken with a grain of salt: we find that
state-of-the-art Natural Language Inference (NLI) models are sensitive towards
minor semantics preserving surface-form variations, which lead to sizable
inconsistent model decisions during inference. Notably, this behaviour differs
from valid and in-depth comprehension of compositional semantics, however does
neither emerge when evaluating model accuracy on standard benchmarks nor when
probing for syntactic, monotonic, and logically robust reasoning. We propose a
novel framework to measure the extent of semantic sensitivity. To this end, we
evaluate NLI models on adversarially generated examples containing minor
semantics-preserving surface-form input noise. This is achieved using
conditional text generation, with the explicit condition that the NLI model
predicts the relationship between the original and adversarial inputs as a
symmetric equivalence entailment. We systematically study the effects of the
phenomenon across NLI models for $\textbf{in-}$ and $\textbf{out-of-}$ domain
settings. Our experiments show that semantic sensitivity causes performance
degradations of $12.92\%$ and $23.71\%$ average over $\textbf{in-}$ and
$\textbf{out-of-}$ domain settings, respectively. We further perform ablation
studies, analysing this phenomenon across models, datasets, and variations in
inference and show that semantic sensitivity can lead to major inconsistency
within model predictions.
- Abstract(参考訳): トランスフォーマティブ・ベースの自然言語理解(nlu)モデルの創発的能力に関する最近の研究は、語彙的および構成的意味論の理解を持っていることを示している。
現状の自然言語推論(NLI)モデルは、表面形状の変動を保ったマイナーセマンティクスに敏感であり、推論中に大きな一貫性のないモデル決定をもたらすことが判明した。
特に、この振る舞いは構成意味論の妥当性と深い理解とは異なっているが、標準ベンチマークでのモデル精度の評価や、構文、単調、論理的に堅牢な推論の探索には現れない。
意味感受性の程度を測定するための新しい枠組みを提案する。
そこで本論文では,表層形状の入力雑音を保存した逆生成例のNLIモデルを評価する。
これは、NLIモデルが元の入力と逆入力の関係を対称同値関係として予測するという明示的な条件で条件付きテキスト生成によって達成される。
我々は,この現象がNLIモデル全体に与える影響を,$\textbf{in-}$と$\textbf{out-of-}$ドメイン設定に対して体系的に研究する。
我々の実験では、セマンティックセンシティブは、それぞれ$\textbf{in-}$と$\textbf{out-of-}$ドメイン設定に対して平均$12.92\%と$23.71\%のパフォーマンス劣化を引き起こす。
さらにアブレーション研究を行い,モデル,データセット,推論のバリエーションをまたいだ解析を行い,モデル予測において意味的感度が大きな不整合をもたらすことを示した。
関連論文リスト
- Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models [16.328341121232484]
文脈介入の効果を測定するために因果効果推定手法を適用した。
本研究はトランスフォーマーの無関係な変化に対する堅牢性と影響の高い変化に対する感受性について検討する。
論文 参考訳(メタデータ) (2024-04-03T10:22:35Z) - Estimating the Causal Effects of Natural Logic Features in Neural NLI
Models [2.363388546004777]
我々は、広く使われているモデルにおいて、体系的な推論失敗を特定し、定量化するのに十分な構造と規則性を持った推論の特定のパターンに着目する。
文脈介入の効果を測定するために因果効果推定手法を適用した。
異なる設定におけるNLPモデルの因果解析に関する関連する研究に続いて、NLIタスクの方法論を適用して比較モデルプロファイルを構築する。
論文 参考訳(メタデータ) (2023-05-15T12:01:09Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。