論文の概要: Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness
- arxiv url: http://arxiv.org/abs/2311.09694v1
- Date: Thu, 16 Nov 2023 09:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:35:27.336966
- Title: Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness
- Title(参考訳): NLPロバストネスにおけるTriumphエコー中のダウトのささやき
- Authors: Ashim Gupta, Rishanth Rajendhran, Nathan Stringham, Vivek Srikumar,
Ana Marasovi\'c
- Abstract要約: NLPの長期的堅牢性問題は,現在より大規模かつ高性能なモデルによって解決されているかを検討する。
a)OODとチャレンジテストセット、(b)CheckLists、(c)コントラストセット、(d)逆入力を用いて評価を行う。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
- 参考スコア(独自算出の注目度): 39.98011422392984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are the longstanding robustness issues in NLP resolved by today's larger and
more performant models? To address this question, we conduct a thorough
investigation using 19 models of different sizes spanning different
architectural choices and pretraining objectives. We conduct evaluations using
(a) OOD and challenge test sets, (b) CheckLists, (c) contrast sets, and (d)
adversarial inputs. Our analysis reveals that not all OOD tests provide further
insight into robustness. Evaluating with CheckLists and contrast sets shows
significant gaps in model performance; merely scaling models does not make them
sufficiently robust. Finally, we point out that current approaches for
adversarial evaluations of models are themselves problematic: they can be
easily thwarted, and in their current forms, do not represent a sufficiently
deep probe of model robustness. We conclude that not only is the question of
robustness in NLP as yet unresolved, but even some of the approaches to measure
robustness need to be reassessed.
- Abstract(参考訳): NLPの長年にわたる堅牢性問題は、今日の大規模でパフォーマンスの高いモデルによって解決されているか?
この問題に対処するために、異なるアーキテクチャ選択と事前学習目的にまたがる19種類のモデルを用いて、徹底的な調査を行う。
私たちは評価を行います
(a)OODとチャレンジテストセット
(b)チェックリスト。
(c)コントラストセット、及び
(d) 逆入力。
分析の結果、OODテストのすべてが堅牢性に関するさらなる洞察を提供するわけではないことが判明した。
CheckListとコントラストセットによる評価は、モデルパフォーマンスにおいて大きなギャップを示している。
最後に、モデルの敵対的評価に対する現在のアプローチはそれ自体が問題であり、それらは容易に妨害され、現在の形式ではモデルの堅牢性に関する十分に深いプローブを表現していないことを指摘した。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Robust Models are less Over-Confident [10.42820615166362]
敵の訓練(AT)は、このような攻撃に対して堅牢性を達成することを目的としている。
我々は、高い堅牢な精度を達成するために、様々な敵に訓練されたモデルを経験的に分析する。
ATには興味深い副作用がある。それは、彼らの決定に非常に自信の持たないモデルに繋がる。
論文 参考訳(メタデータ) (2022-10-12T06:14:55Z) - Analyzing Modality Robustness in Multimodal Sentiment Analysis [48.52878002917685]
堅牢なマルチモーダルモデルの構築は、荒野における信頼性の高いデプロイメントを実現する上で極めて重要です。
訓練されたマルチモーダルモデルにおけるモダリティロバストネスの簡易診断チェックを提案する。
問題を軽減するために、よく知られた堅牢なトレーニング戦略を分析します。
論文 参考訳(メタデータ) (2022-05-30T23:30:16Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。