論文の概要: Measure and Improve Robustness in NLP Models: A Survey
- arxiv url: http://arxiv.org/abs/2112.08313v1
- Date: Wed, 15 Dec 2021 18:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:33:58.654696
- Title: Measure and Improve Robustness in NLP Models: A Survey
- Title(参考訳): NLPモデルにおけるロバスト性の測定と改善:サーベイ
- Authors: Xuezhi Wang, Haohan Wang, Diyi Yang
- Abstract要約: 堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 23.515869499536237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As NLP models achieved state-of-the-art performances over benchmarks and
gained wide applications, it has been increasingly important to ensure the safe
deployment of these models in the real world, e.g., making sure the models are
robust against unseen or challenging scenarios. Despite robustness being an
increasingly studied topic, it has been separately explored in applications
like vision and NLP, with various definitions, evaluation and mitigation
strategies in multiple lines of research. In this paper, we aim to provide a
unifying survey of how to define, measure and improve robustness in NLP. We
first connect multiple definitions of robustness, then unify various lines of
work on identifying robustness failures and evaluating models' robustness.
Correspondingly, we present mitigation strategies that are data-driven,
model-driven, and inductive-prior-based, with a more systematic view of how to
effectively improve robustness in NLP models. Finally, we conclude by outlining
open challenges and future directions to motivate further research in this
area.
- Abstract(参考訳): nlpモデルは、ベンチマークよりも最先端のパフォーマンスを達成し、幅広いアプリケーションを獲得しているため、これらのモデルの現実世界への安全なデプロイを保証することがますます重要になっている。
頑健性はますます研究されているトピックであるが、視覚やNLPなどの応用において、様々な定義、評価、緩和戦略を複数の研究分野に分けて研究されている。
本稿では,NLPにおけるロバスト性の定義,測定,改善に関する統一的な調査を行うことを目的とする。
まず、ロバスト性の定義を複数結合し、続いてロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統合する。
そこで本研究では,nlpモデルのロバスト性を改善するためのより体系的な視点から,データ駆動型,モデル駆動型,インダクティブ優先型の緩和戦略を提案する。
最後に,この分野におけるさらなる研究の動機づけとなるオープンチャレンジと今後の方向性について概説する。
関連論文リスト
- Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Exploring the Interplay of Interpretability and Robustness in Deep Neural Networks: A Saliency-guided Approach [3.962831477787584]
敵対的攻撃は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイする上で大きな課題となる。
モデルの堅牢性を維持しながら解釈可能性を確保することは、これらのモデルの信頼と理解を促進する上で不可欠である。
本研究では,Saliency-Guided Trainingがモデルロバスト性に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-05-10T07:21:03Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness [29.312873775442757]
a)ドメイン外のテストセットとチャレンジテストセット、(b)CheckListによる振る舞いテスト、(c)コントラストセット、(d)逆入力を用いて評価を行う。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
論文 参考訳(メタデータ) (2023-11-16T09:09:32Z) - Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices [3.1466086042810884]
トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定している。
予測の不確実性を確実に見積もるのは 重要な課題です
モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。
提案手法は,アクセプタビリティ判定と人工テキスト検出のためのベンチマークにおいて,既存の不確実性推定手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-22T09:17:45Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。