論文の概要: Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU
models
- arxiv url: http://arxiv.org/abs/2103.06922v1
- Date: Thu, 11 Mar 2021 19:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 03:09:03.577440
- Title: Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU
models
- Title(参考訳): NLUモデルの短期学習行動の解釈と緩和に向けて
- Authors: Mengnan Du, Varun Manjunatha, Rajiv Jain, Ruchi Deshpande, Franck
Dernoncourt, Jiuxiang Gu, Tong Sun and Xia Hu
- Abstract要約: 訓練されたNLUモデルは、長尾分布の先頭に位置する特徴を強く好んでいることを示す。
本研究では,ショートカット度の高いサンプルに対する過信予測を抑えるためのショートカット緩和フレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.36605766266518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicate that NLU models are prone to rely on shortcut
features for prediction. As a result, these models could potentially fail to
generalize to real-world out-of-distribution scenarios. In this work, we show
that the shortcut learning behavior can be explained by the long-tailed
phenomenon. There are two findings : 1) Trained NLU models have strong
preference for features located at the head of the long-tailed distribution,
and 2) Shortcut features are picked up during very early few iterations of the
model training. These two observations are further employed to formulate a
measurement which can quantify the shortcut degree of each training sample.
Based on this shortcut measurement, we propose a shortcut mitigation framework,
to suppress the model from making overconfident predictions for samples with
large shortcut degree. Experimental results on three NLU benchmarks demonstrate
that our long-tailed distribution explanation accurately reflects the shortcut
learning behavior of NLU models. Experimental analysis further indicates that
our method can improve the generalization accuracy on OOD data, while
preserving the accuracy on in distribution test data.
- Abstract(参考訳): 最近の研究では、NLUモデルは予測のショートカット機能に依存する傾向にある。
その結果、これらのモデルは、現実の分散シナリオに一般化できない可能性がある。
本研究では,長尾現象によってショートカット学習の挙動を説明できることを示した。
1) 訓練されたnluモデルは,ロングテール分布の先頭に位置する特徴に対して強い選好性を持ち,2) モデルトレーニングのごく初期のイテレーションでショートカット機能を選択できること,の2つがある。
これらの2つの観測は、各トレーニングサンプルのショートカット度を定量化できる測定を定式化するためにさらに用いられる。
このショートカット測定に基づいて,大規模なショートカット度を有するサンプルに対する過信予測を抑えるためのショートカット緩和フレームワークを提案する。
3つのNLUベンチマークによる実験結果から,NLUモデルのショートカット学習挙動を正確に反映した長期分布説明が得られた。
さらに, 実験結果から, OODデータの一般化精度を向上し, 分散テストデータに精度を保存できることが示唆された。
関連論文リスト
- Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding [5.4480125359160265]
本稿では,各専門家が比較的異なる潜伏特徴を捉えていると仮定して,実験結果の混合予測を悲観的に集約する手法を提案する。
実験結果から,専門家に対するポストホック制御は,ショートカットにおける分布シフトに対するモデルのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T20:00:04Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - How to Construct Perfect and Worse-than-Coin-Flip Spoofing
Countermeasures: A Word of Warning on Shortcut Learning [20.486639064376014]
ショートカット学習(英: Shortcut learning、またはClever Hans effect)とは、学習エージェントがデータに存在する急激な相関を学習し、バイアスのあるモデルをもたらす状況を指す。
本研究では, 深層学習に基づくスプーフィング対策(CM)において, ある発話がスプーフィングされているか否かを予測するショートカットの発見に焦点をあてる。
論文 参考訳(メタデータ) (2023-05-31T15:58:37Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。