論文の概要: KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2306.02980v1
- Date: Mon, 5 Jun 2023 15:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 14:16:13.268626
- Title: KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations
- Title(参考訳): 決心の仕方を知っておけ!
自然言語説明における不整合の検出と緩和
- Authors: Myeongjun Jang, Bodhisattwa Prasad Majumder, Julian McAuley, Thomas
Lukasiewicz, Oana-Maria Camburu
- Abstract要約: 不整合性NLEを検出するために既存の敵攻撃を大幅に改善するために,外部知識ベースを活用する。
高いNLE品質のモデルが必ずしも矛盾を生じさせるとは限らないことを示す。
- 参考スコア(独自算出の注目度): 52.33256203018764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent works have been considerably improving the quality of the
natural language explanations (NLEs) generated by a model to justify its
predictions, there is very limited research in detecting and alleviating
inconsistencies among generated NLEs. In this work, we leverage external
knowledge bases to significantly improve on an existing adversarial attack for
detecting inconsistent NLEs. We apply our attack to high-performing NLE models
and show that models with higher NLE quality do not necessarily generate fewer
inconsistencies. Moreover, we propose an off-the-shelf mitigation method to
alleviate inconsistencies by grounding the model into external background
knowledge. Our method decreases the inconsistencies of previous high-performing
NLE models as detected by our attack.
- Abstract(参考訳): 近年,その予測を正当化するためにモデルが生成した自然言語説明(NLE)の品質を著しく向上させているが,生成したNLE間の矛盾を検出し緩和する研究は極めて限られている。
本研究では,既存のNLEの検出において,既存の敵攻撃を著しく改善するために,外部知識ベースを活用する。
我々は高い性能のNLEモデルに適用し、高いNLE品質のモデルが必ずしも矛盾を生じないことを示す。
さらに,モデルから外部の背景知識を抽出することで不整合を緩和するオフザシェルフ緩和手法を提案する。
攻撃によって検出された従来の高性能NLEモデルの矛盾を低減させる。
関連論文リスト
- Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Don't Miss Out on Novelty: Importance of Novel Features for Deep Anomaly
Detection [64.21963650519312]
異常検出(AD)は、正規性の学習モデルに適合しない観察を識別する重要なタスクである。
本稿では, 入力空間における説明不能な観測として, 説明可能性を用いた新しいAD手法を提案する。
当社のアプローチでは,複数のベンチマークにまたがる新たな最先端性を確立し,さまざまな異常な型を扱う。
論文 参考訳(メタデータ) (2023-10-01T21:24:05Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Model Explainability in Deep Learning Based Natural Language Processing [0.0]
我々は、一般的な機械学習モデル説明可能性方法論をレビューし、比較した。
NLP分類モデルにNLP説明可能性手法の1つを適用した。
我々は,NLPモデルの特質から,いくつかの共通点を明らかにした。
論文 参考訳(メタデータ) (2021-06-14T13:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。