論文の概要: Penalizing Confident Predictions on Largely Perturbed Inputs Does Not
Improve Out-of-Distribution Generalization in Question Answering
- arxiv url: http://arxiv.org/abs/2211.16093v1
- Date: Tue, 29 Nov 2022 11:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:04:08.319052
- Title: Penalizing Confident Predictions on Largely Perturbed Inputs Does Not
Improve Out-of-Distribution Generalization in Question Answering
- Title(参考訳): 主に摂動した入力に対する自信のある予測のペナルティ化は、質問応答における分散の一般化を改善しない
- Authors: Kazutoshi Shinoda, Saku Sugawara, Akiko Aizawa
- Abstract要約: 質問応答(QA)モデルは入力に対する大きな摂動に敏感であることが示されている。
特定の摂動タイプに敏感に訓練されたQAモデルは、しばしば目に見えない摂動タイプに敏感である。
- 参考スコア(独自算出の注目度): 38.36299280464046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering (QA) models are shown to be insensitive to large
perturbations to inputs; that is, they make correct and confident predictions
even when given largely perturbed inputs from which humans can not correctly
derive answers. In addition, QA models fail to generalize to other domains and
adversarial test sets, while humans maintain high accuracy. Based on these
observations, we assume that QA models do not use intended features necessary
for human reading but rely on spurious features, causing the lack of
generalization ability. Therefore, we attempt to answer the question: If the
overconfident predictions of QA models for various types of perturbations are
penalized, will the out-of-distribution (OOD) generalization be improved? To
prevent models from making confident predictions on perturbed inputs, we first
follow existing studies and maximize the entropy of the output probability for
perturbed inputs. However, we find that QA models trained to be sensitive to a
certain perturbation type are often insensitive to unseen types of
perturbations. Thus, we simultaneously maximize the entropy for the four
perturbation types (i.e., word- and sentence-level shuffling and deletion) to
further close the gap between models and humans. Contrary to our expectations,
although models become sensitive to the four types of perturbations, we find
that the OOD generalization is not improved. Moreover, the OOD generalization
is sometimes degraded after entropy maximization. Making unconfident
predictions on largely perturbed inputs per se may be beneficial to gaining
human trust. However, our negative results suggest that researchers should pay
attention to the side effect of entropy maximization.
- Abstract(参考訳): 質問応答(qa)モデルは、入力に対する大きな摂動に影響を受けないことが示されている。つまり、人間が正しく答えを導出できない主に摂動した入力が与えられたとしても、正確で自信のある予測を行う。
さらに、QAモデルは、人間が高い精度を維持する一方で、他のドメインや敵対するテストセットに一般化できない。
これらの結果から,QAモデルでは人間の読解に必要な意図的特徴は使用せず,刺激的特徴に依存し,一般化能力の欠如が示唆された。
したがって、様々な摂動に対するQAモデルの過度な予測が罰せられるならば、アウト・オブ・ディストリビューション(OOD)の一般化は改善されるのだろうか?
モデルが摂動入力に対して確実な予測を行うのを防ぐため,既存の研究をまず追従し,摂動入力に対する出力確率のエントロピーを最大化する。
しかし、ある摂動タイプに敏感に訓練されたQAモデルは、しばしば目に見えない摂動タイプに敏感である。
そこで,4種類の摂動型(単語と文レベルのシャッフルと削除)のエントロピーを同時に最大化し,モデルと人間のギャップを埋める。
予測とは対照的に、モデルは4種類の摂動に敏感になるが、OOD一般化は改善されていない。
さらに、OOD一般化はエントロピー最大化後に分解されることがある。
主に混乱した入力に対して不確実な予測を行うことは、人間の信頼を得る上で有益である。
しかし,我々の否定的な結果は,エントロピー最大化の副作用に注意を払うべきであることを示唆している。
関連論文リスト
- Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Beyond Confidence: Reliable Models Should Also Consider Atypicality [43.012818086415514]
サンプルやクラスが非典型的であるかとモデルの予測の信頼性との関係について検討する。
非定型入力や非定型クラスの予測は、より過信であり、精度が低いことを示す。
モデルの信頼性だけでなく,不確かさの定量化や性能向上にも非定型性を用いるべきである。
論文 参考訳(メタデータ) (2023-05-29T17:37:09Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Learning Uncertainty with Artificial Neural Networks for Improved
Remaining Time Prediction of Business Processes [0.15229257192293202]
本論文では,これらの手法を予測過程のモニタリングに応用する。
より正確な予測と迅速な作業に貢献できることが分かりました。
これは多くの興味深い応用をもたらし、より小さなデータセットを持つ予測システムを早期に導入し、人間とのより良い協力を促進する。
論文 参考訳(メタデータ) (2021-05-12T10:18:57Z) - On the Transferability of Minimal Prediction Preserving Inputs in
Question Answering [6.452012363895865]
最近の研究は、ニューラルモデルに高い信頼性と精度をもたらす短い、解釈不能な入力フラグメントの存在を確立している。
我々はこれらをMPPI(Minimum Prediction Preserving Inputs)と呼ぶ。
ニューラルモデルの後部校正不良,事前トレーニングの欠如,"データセットバイアス"など,MPPIの存在に関する競合仮説を考察する。
論文 参考訳(メタデータ) (2020-09-17T04:58:39Z) - Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? [0.0]
ドメイン内精度を総合的に測定する標準評価基準は誤解を招くものであると論じる。
これらの問題を克服するためのGQA-OODベンチマークを提案する。
論文 参考訳(メタデータ) (2020-06-09T08:50:39Z) - Undersensitivity in Neural Reading Comprehension [36.142792758501706]
現在の読書理解モデルは、分布内テストセットによく一般化するが、敵対的に選択された入力では不十分である。
本稿では,入力テキストが有意に変化するが,モデルの予測は行わない,過度な予測過敏性の相補的問題に焦点をあてる。
モデルが同じ答えを誤って予測する問題の意味的バリエーションの中から探索するノイズの多い逆攻撃を定式化する。
論文 参考訳(メタデータ) (2020-02-15T19:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。