論文の概要: Geometry matters: Exploring language examples at the decision boundary
- arxiv url: http://arxiv.org/abs/2010.07212v3
- Date: Thu, 28 Oct 2021 14:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:36:38.706230
- Title: Geometry matters: Exploring language examples at the decision boundary
- Title(参考訳): 幾何学的問題:決定境界における言語例の探索
- Authors: Debajyoti Datta, Shashwat Kumar, Laura Barnes, Tom Fletcher
- Abstract要約: BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
- 参考スコア(独自算出の注目度): 2.7249290070320034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing body of recent evidence has highlighted the limitations of natural
language processing (NLP) datasets and classifiers. These include the presence
of annotation artifacts in datasets, classifiers relying on shallow features
like a single word (e.g., if a movie review has the word "romantic", the review
tends to be positive), or unnecessary words (e.g., learning a proper noun to
classify a movie as positive or negative). The presence of such artifacts has
subsequently led to the development of challenging datasets to force the model
to generalize better. While a variety of heuristic strategies, such as
counterfactual examples and contrast sets, have been proposed, the theoretical
justification about what makes these examples difficult for the classifier is
often lacking or unclear. In this paper, using tools from information geometry,
we propose a theoretical way to quantify the difficulty of an example in NLP.
Using our approach, we explore difficult examples for several deep learning
architectures. We discover that both BERT, CNN and fasttext are susceptible to
word substitutions in high difficulty examples. These classifiers tend to
perform poorly on the FIM test set. (generated by sampling and perturbing
difficult examples, with accuracy dropping below 50%). We replicate our
experiments on 5 NLP datasets (YelpReviewPolarity, AGNEWS, SogouNews,
YelpReviewFull and Yahoo Answers). On YelpReviewPolarity we observe a
correlation coefficient of -0.4 between resilience to perturbations and the
difficulty score. Similarly we observe a correlation of 0.35 between the
difficulty score and the empirical success probability of random substitutions.
Our approach is simple, architecture agnostic and can be used to study the
fragilities of text classification models. All the code used will be made
publicly available, including a tool to explore the difficult examples for
other datasets.
- Abstract(参考訳): 最近の証拠の増大は、自然言語処理(NLP)データセットと分類器の限界を強調している。
例えば、データセットにアノテーションアーティファクトが存在すること、単一の単語のような浅い特徴(例えば、映画レビューが「ロマンティック」という言葉を持っている場合、レビューは肯定的である)、不必要な単語(例えば、適切な名詞を学習して、映画を肯定的または否定的に分類する)などである。
このようなアーティファクトの存在は、モデルをより一般化させるための挑戦的なデータセットの開発につながった。
反実例やコントラスト集合のような様々なヒューリスティック戦略が提案されているが、分類器にとってこれらの例が難しい理由に関する理論的正当化はしばしば欠落または不明瞭である。
本稿では,情報幾何学のツールを用いて,NLPにおける例の難易度を定量化する理論的手法を提案する。
このアプローチを用いて、いくつかのディープラーニングアーキテクチャの難しい例を探索する。
BERT, CNN, およびfasttextは, 高難易度例において単語置換の影響を受けやすいことがわかった。
これらの分類器はfimテストセットでは性能が悪い傾向がある。
(難解な例をサンプリング・摂動して生成し、精度は50%以下)。
5つのNLPデータセット(YelpReviewPolarity、AGNEWS、SogouNews、YelpReviewFull、Yahoo Answers)で実験を再現します。
YelpReviewPolarityでは、摂動と難易度との相関係数-0.4が観察される。
同様に、難易度スコアとランダム置換の経験的成功確率の0.35の相関を観察する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの妥当性の研究に利用できる。
使用するすべてのコードは公開され、他のデータセットの難しい例を探索するツールも含まれている。
関連論文リスト
- Detrimental Contexts in Open-Domain Question Answering [9.059854023578508]
質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を及ぼすかを分析する。
この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T11:45:16Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Textual Enhanced Contrastive Learning for Solving Math Word Problems [23.196339273292246]
本稿では,意味的に類似した例を識別するためにモデルを強制するテキスト拡張コントラスト学習フレームワークを提案する。
テキストの微妙なばらつきのある例を豊かにするために、自己監督的な方法戦略を採用する。
実験結果から,提案手法は広く使用されているベンチマークデータセットと,英語と中国語の課題データセットの両面において,最先端性を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2022-11-29T08:44:09Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。