論文の概要: Finding Dataset Shortcuts with Grammar Induction
- arxiv url: http://arxiv.org/abs/2210.11560v1
- Date: Thu, 20 Oct 2022 19:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:26:07.690989
- Title: Finding Dataset Shortcuts with Grammar Induction
- Title(参考訳): 文法誘導によるデータセットショートカットの探索
- Authors: Dan Friedman, Alexander Wettig, Danqi Chen
- Abstract要約: 我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
- 参考スコア(独自算出の注目度): 85.47127659108637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many NLP datasets have been found to contain shortcuts: simple decision rules
that achieve surprisingly high accuracy. However, it is difficult to discover
shortcuts automatically. Prior work on automatic shortcut detection has focused
on enumerating features like unigrams or bigrams, which can find only low-level
shortcuts, or relied on post-hoc model interpretability methods like saliency
maps, which reveal qualitative patterns without a clear statistical
interpretation. In this work, we propose to use probabilistic grammars to
characterize and discover shortcuts in NLP datasets. Specifically, we use a
context-free grammar to model patterns in sentence classification datasets and
use a synchronous context-free grammar to model datasets involving sentence
pairs. The resulting grammars reveal interesting shortcut features in a number
of datasets, including both simple and high-level features, and automatically
identify groups of test examples on which conventional classifiers fail.
Finally, we show that the features we discover can be used to generate
diagnostic contrast examples and incorporated into standard robust optimization
methods to improve worst-group accuracy.
- Abstract(参考訳): 多くのNLPデータセットは、驚くほど高い精度を達成する単純な決定規則を含むことが判明した。
しかし,ショートカットの自動発見は困難である。
従来の自動ショートカット検出では、ユニグラムやbigramのような低レベルのショートカットのみを見つける機能や、明確な統計的な解釈なしに質的パターンを明らかにするサリエンシーマップのようなポストホックなモデル解釈可能性メソッドに頼りになる機能に重点が置かれていた。
本研究では,NLPデータセットのショートカットを特徴付ける確率論的文法を提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの特徴を含む多くのデータセットで興味深いショートカット機能を示し、従来の分類器が失敗するテスト例のグループを自動的に識別する。
最後に,検出した特徴を診断コントラスト例の生成に利用し,標準頑健な最適化手法に組み込むことで,最悪のグループ精度を向上できることを示す。
関連論文リスト
- Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in
Natural Language Understanding Dataset [42.7808341077646]
ShortcutLensは、NLUの専門家がベンチマークデータセットでショートカットを探索するのに役立つビジュアル分析システムである。
統計ビューは、ユーザーがベンチマークデータセットでショートカットのカバレッジや生産性などの統計を把握できるようにする。
システムの有効性とユーザビリティを評価するために,ケーススタディと専門家インタビューを実施している。
論文 参考訳(メタデータ) (2022-08-17T01:24:55Z) - Automatic Language Identification for Celtic Texts [0.0]
この研究は、ケルト語族を例に、関連する低リソース言語の識別に対処する。
アイルランド語、スコットランド語、ウェールズ語、英語のレコードを含む新しいデータセットを収集しました。
我々は、クラスタリング、オートエンコーダ、トピックモデリングメソッドの出力と並行して、従来の統計的特徴を持つSVMやニューラルネットワークなどの教師付きモデルをテストする。
論文 参考訳(メタデータ) (2022-03-09T16:04:13Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。