論文の概要: NatLogAttack: A Framework for Attacking Natural Language Inference Models with Natural Logic
- arxiv url: http://arxiv.org/abs/2307.02849v2
- Date: Fri, 11 Oct 2024 00:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:53.385955
- Title: NatLogAttack: A Framework for Attacking Natural Language Inference Models with Natural Logic
- Title(参考訳): NatLogAttack:自然言語推論モデルを自然言語論理で攻撃するフレームワーク
- Authors: Zi'ou Zheng, Xiaodan Zhu,
- Abstract要約: 敵の攻撃は、アキレスの犠牲者モデルのヒールを評価する上で重要なツールであることが証明されている。
そこで我々はNatLogAttackを提案する。
既存の攻撃モデルと比較して、NatLogAttackは、犠牲者モデルへの訪問が少なく、より良い敵例を生成する。
- 参考スコア(独自算出の注目度): 25.09127185703912
- License:
- Abstract: Reasoning has been a central topic in artificial intelligence from the beginning. The recent progress made on distributed representation and neural networks continues to improve the state-of-the-art performance of natural language inference. However, it remains an open question whether the models perform real reasoning to reach their conclusions or rely on spurious correlations. Adversarial attacks have proven to be an important tool to help evaluate the Achilles' heel of the victim models. In this study, we explore the fundamental problem of developing attack models based on logic formalism. We propose NatLogAttack to perform systematic attacks centring around natural logic, a classical logic formalism that is traceable back to Aristotle's syllogism and has been closely developed for natural language inference. The proposed framework renders both label-preserving and label-flipping attacks. We show that compared to the existing attack models, NatLogAttack generates better adversarial examples with fewer visits to the victim models. The victim models are found to be more vulnerable under the label-flipping setting. NatLogAttack provides a tool to probe the existing and future NLI models' capacity from a key viewpoint and we hope more logic-based attacks will be further explored for understanding the desired property of reasoning.
- Abstract(参考訳): 推論は、当初から人工知能において中心的なトピックであった。
分散表現とニューラルネットワークの最近の進歩は、自然言語推論の最先端性能を改善し続けている。
しかし、モデルが結論に達するための真の推論を行うのか、あるいは急激な相関に頼っているのかは、まだ明らかな疑問である。
敵の攻撃は、アキレスの犠牲者モデルのヒールを評価する上で重要なツールであることが証明されている。
本研究では,論理形式に基づく攻撃モデル開発の基本的課題について考察する。
ナットログアタック(NatLogAttack)は、アリストテレスのシロジズムにさかのぼる古典論理形式であり、自然言語推論のために開発されている。
提案するフレームワークは,ラベル保存攻撃とラベルフリッピング攻撃の両方をレンダリングする。
既存の攻撃モデルと比較して、NatLogAttackは、犠牲者モデルへの訪問が少なく、より良い敵例を生成する。
被害者のモデルはラベルフリップ設定でより脆弱であることが判明した。
NatLogAttackは、キーパースペクティブから既存のNLIモデルのキャパシティを調査するためのツールを提供しています。
関連論文リスト
- Adversarial Attack for Explanation Robustness of Rationalization Models [17.839644167949906]
合理化モデルは、人間が予測を理解し、信頼するために、入力テキストのサブセットを選択する。
本論文は, 合理化モデルの説明可能性について, 予測を変更せずに損なうことを目的としている。
論文 参考訳(メタデータ) (2024-08-20T12:43:58Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Case-Based Reasoning with Language Models for Classification of Logical
Fallacies [3.511369967593153]
本稿では,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。
本実験は,ケースベース推論が言語モデルの精度と一般化性を向上させることを示唆している。
論文 参考訳(メタデータ) (2023-01-27T17:49:16Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Can Rationalization Improve Robustness? [39.741059642044874]
ニューラルNLPモデルが、その解釈可能な性質に加えて、敵攻撃に対して堅牢性をもたらすかどうかを検討する。
トークンと文レベルの合理化タスクの両方に対して,さまざまなタイプのAddText攻撃を生成する。
実験の結果、合理的モデルでは、特定のシナリオで苦労しながら、堅牢性を改善するという約束が示されることがわかった。
論文 参考訳(メタデータ) (2022-04-25T17:02:42Z) - Learning to Rationalize for Nonmonotonic Reasoning with Distant
Supervision [44.32874972577682]
モデル予測を説明する自然言語の理性について,ニューラルモデルが判断できる範囲について検討する。
トレーニング済みの言語モデル、ニューラルナレッジモデル、関連するタスクからの遠隔監視を使用します。
我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束している。
論文 参考訳(メタデータ) (2020-12-14T23:50:20Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。