論文の概要: Adversarial Attack for Explanation Robustness of Rationalization Models
- arxiv url: http://arxiv.org/abs/2408.10795v3
- Date: Thu, 19 Sep 2024 07:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-20 13:36:42.558273
- Title: Adversarial Attack for Explanation Robustness of Rationalization Models
- Title(参考訳): 合理化モデルの説明ロバスト性に対する逆攻撃
- Authors: Yuankai Zhang, Lingxiao Kong, Haozhao Wang, Ruixuan Li, Jun Wang, Yuhua Li, Wei Liu,
- Abstract要約: 合理化モデルは、人間が予測を理解し、信頼するために、入力テキストのサブセットを選択する。
本論文は, 合理化モデルの説明可能性について, 予測を変更せずに損なうことを目的としている。
- 参考スコア(独自算出の注目度): 17.839644167949906
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Rationalization models, which select a subset of input text as rationale-crucial for humans to understand and trust predictions-have recently emerged as a prominent research area in eXplainable Artificial Intelligence. However, most of previous studies mainly focus on improving the quality of the rationale, ignoring its robustness to malicious attack. Specifically, whether the rationalization models can still generate high-quality rationale under the adversarial attack remains unknown. To explore this, this paper proposes UAT2E, which aims to undermine the explainability of rationalization models without altering their predictions, thereby eliciting distrust in these models from human users. UAT2E employs the gradient-based search on triggers and then inserts them into the original input to conduct both the non-target and target attack. Experimental results on five datasets reveal the vulnerability of rationalization models in terms of explanation, where they tend to select more meaningless tokens under attacks. Based on this, we make a series of recommendations for improving rationalization models in terms of explanation.
- Abstract(参考訳): 入力テキストのサブセットを人間による予測の理解と信頼の合理化として選択する合理化モデルは、最近、eXplainable Artificial Intelligenceにおいて顕著な研究領域として登場した。
しかし、これまでの研究の大部分は、その強固さを悪質な攻撃に無視して、理論の質の向上に重点を置いていた。
具体的には, 合理的化モデルが相変わらず, 敵攻撃下で高品質な合理性を生み出すか否かが不明である。
そこで本研究では,これらのモデルに対する不信感を人から引き出すことなく,合理的化モデルの説明性を損なうことを目的としたUAT2Eを提案する。
UAT2Eはトリガーに勾配に基づくサーチを採用し、元の入力に挿入して非ターゲット攻撃とターゲット攻撃の両方を実行する。
5つのデータセットの実験結果は、説明の観点から合理化モデルの脆弱性を明らかにし、攻撃下でより意味のないトークンを選択する傾向がある。
これに基づいて、説明の観点から合理化モデルを改善するための一連の勧告を行う。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Introducing Foundation Models as Surrogate Models: Advancing Towards
More Practical Adversarial Attacks [15.882687207499373]
箱なしの敵攻撃は、AIシステムにとってより実用的で難しいものになりつつある。
本稿では,サロゲートモデルとして基礎モデルを導入することにより,逆攻撃を下流タスクとして再放送する。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Unsupervised Selective Rationalization with Noise Injection [7.17737088382948]
教師なし選択的合理化は、2つの共同訓練されたコンポーネント、有理生成器と予測器をチェーンすることで、予測と共に有理性を生成する。
本稿では,生成器と予測器との間にノイズを注入することにより,有理数生成を効果的に抑制する新しい訓練手法を提案する。
新しいベンチマークを含め、さまざまなタスクにおける最先端技術に対する合理的な妥当性とタスク精度の大幅な改善を実現しています。
論文 参考訳(メタデータ) (2023-05-27T17:34:36Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Can Rationalization Improve Robustness? [39.741059642044874]
ニューラルNLPモデルが、その解釈可能な性質に加えて、敵攻撃に対して堅牢性をもたらすかどうかを検討する。
トークンと文レベルの合理化タスクの両方に対して,さまざまなタイプのAddText攻撃を生成する。
実験の結果、合理的モデルでは、特定のシナリオで苦労しながら、堅牢性を改善するという約束が示されることがわかった。
論文 参考訳(メタデータ) (2022-04-25T17:02:42Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Learning to Rationalize for Nonmonotonic Reasoning with Distant
Supervision [44.32874972577682]
モデル予測を説明する自然言語の理性について,ニューラルモデルが判断できる範囲について検討する。
トレーニング済みの言語モデル、ニューラルナレッジモデル、関連するタスクからの遠隔監視を使用します。
我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束している。
論文 参考訳(メタデータ) (2020-12-14T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。