論文の概要: Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness
- arxiv url: http://arxiv.org/abs/2311.09694v2
- Date: Wed, 3 Apr 2024 15:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:47:12.505677
- Title: Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness
- Title(参考訳): NLPロバストネスにおけるTriumphエコー中のダウトのささやき
- Authors: Ashim Gupta, Rishanth Rajendhran, Nathan Stringham, Vivek Srikumar, Ana Marasović,
- Abstract要約: a)ドメイン外のテストセットとチャレンジテストセット、(b)CheckListによる振る舞いテスト、(c)コントラストセット、(d)逆入力を用いて評価を行う。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
- 参考スコア(独自算出の注目度): 29.312873775442757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do larger and more performant models resolve NLP's longstanding robustness issues? We investigate this question using over 20 models of different sizes spanning different architectural choices and pretraining objectives. We conduct evaluations using (a) out-of-domain and challenge test sets, (b) behavioral testing with CheckLists, (c) contrast sets, and (d) adversarial inputs. Our analysis reveals that not all out-of-domain tests provide insight into robustness. Evaluating with CheckLists and contrast sets shows significant gaps in model performance; merely scaling models does not make them adequately robust. Finally, we point out that current approaches for adversarial evaluations of models are themselves problematic: they can be easily thwarted, and in their current forms, do not represent a sufficiently deep probe of model robustness. We conclude that not only is the question of robustness in NLP as yet unresolved, but even some of the approaches to measure robustness need to be reassessed.
- Abstract(参考訳): より大規模でパフォーマンスの高いモデルは、NLPの長年の堅牢性の問題を解決するだろうか?
本稿では,異なるアーキテクチャ選択と事前学習目的にまたがる,20以上の異なるサイズのモデルを用いて,この問題を考察する。
私たちは評価を行います
a) ドメイン外のテストセットとチャレンジテストセット。
(b) CheckListsによる動作テスト
(c)コントラストセット、及び
(d)逆入力。
分析の結果、すべてのドメイン外のテストが堅牢性に関する洞察を提供するわけではないことが判明した。
CheckListとコントラストセットでの評価は、モデルのパフォーマンスにおいて大きなギャップを示している。
最後に、モデルに対する対戦性評価に対する現在のアプローチは、それ自体が問題であると指摘し、それらは容易に回避でき、現在の形式では、モデルロバスト性についての十分な深い調査を表現していない。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Robust Models are less Over-Confident [10.42820615166362]
敵の訓練(AT)は、このような攻撃に対して堅牢性を達成することを目的としている。
我々は、高い堅牢な精度を達成するために、様々な敵に訓練されたモデルを経験的に分析する。
ATには興味深い副作用がある。それは、彼らの決定に非常に自信の持たないモデルに繋がる。
論文 参考訳(メタデータ) (2022-10-12T06:14:55Z) - Analyzing Modality Robustness in Multimodal Sentiment Analysis [48.52878002917685]
堅牢なマルチモーダルモデルの構築は、荒野における信頼性の高いデプロイメントを実現する上で極めて重要です。
訓練されたマルチモーダルモデルにおけるモダリティロバストネスの簡易診断チェックを提案する。
問題を軽減するために、よく知られた堅牢なトレーニング戦略を分析します。
論文 参考訳(メタデータ) (2022-05-30T23:30:16Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。