論文の概要: Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction
- arxiv url: http://arxiv.org/abs/2112.10424v1
- Date: Mon, 20 Dec 2021 09:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:55:12.710617
- Title: Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction
- Title(参考訳): 共用テキスト分類と合理的抽出のための統一モデル説明可能性とロバスト性
- Authors: Dongfang Li, Baotian Hu, Qingcai Chen, Tujie Xu, Jingcong Tao, Yunan
Zhang
- Abstract要約: そこで我々は,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 11.878012909876713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown explainability and robustness are two crucial
ingredients of trustworthy and reliable text classification. However, previous
works usually address one of two aspects: i) how to extract accurate rationales
for explainability while being beneficial to prediction; ii) how to make the
predictive model robust to different types of adversarial attacks. Intuitively,
a model that produces helpful explanations should be more robust against
adversarial attacks, because we cannot trust the model that outputs
explanations but changes its prediction under small perturbations. To this end,
we propose a joint classification and rationale extraction model named AT-BMC.
It includes two key mechanisms: mixed Adversarial Training (AT) is designed to
use various perturbations in discrete and embedding space to improve the
model's robustness, and Boundary Match Constraint (BMC) helps to locate
rationales more precisely with the guidance of boundary information.
Performances on benchmark datasets demonstrate that the proposed AT-BMC
outperforms baselines on both classification and rationale extraction by a
large margin. Robustness analysis shows that the proposed AT-BMC decreases the
attack success rate effectively by up to 69%. The empirical results indicate
that there are connections between robust models and better explanations.
- Abstract(参考訳): 最近の研究では、説明可能性と頑健性が信頼性と信頼性の高いテキスト分類の重要な2つの要素であることが示されている。
しかし、以前の作品は通常2つの側面のうちの1つに対処する。
一 予測に有益でありながら説明可能性の正確な根拠を抽出する方法
二 予測モデルを、異なる種類の敵の攻撃に対して頑健にする方法。
直感的には、有益な説明を生成するモデルは、説明を出力するモデルを信頼できないが、小さな摂動の下で予測を変更するため、敵攻撃に対してより堅牢であるべきである。
そこで本研究では,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
ロバストネス分析の結果,提案したAT-BMCは攻撃成功率を69%まで効果的に低下させることがわかった。
実験結果は、ロバストモデルとより良い説明の間に関係があることを示唆している。
関連論文リスト
- A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models [11.938237087895649]
既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。
本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。
様々な入力微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの対角的堅牢性を予測する。
論文 参考訳(メタデータ) (2024-02-18T05:58:25Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - On the Trade-offs between Adversarial Robustness and Actionable Explanations [32.05150063480917]
本研究は, 対向的に頑健なモデルが動作可能な説明に与える影響を初めて研究する試みである。
提案手法は,最先端のアルゴリズムが生成する手法のコストと妥当性の差に関する理論的境界を導出する。
その結果, 逆向き頑健なモデルでは, コストが大幅に増加し, 結果の妥当性が低下することが示唆された。
論文 参考訳(メタデータ) (2023-09-28T13:59:50Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。