論文の概要: Logically Consistent Adversarial Attacks for Soft Theorem Provers
- arxiv url: http://arxiv.org/abs/2205.00047v1
- Date: Fri, 29 Apr 2022 19:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 11:14:14.940997
- Title: Logically Consistent Adversarial Attacks for Soft Theorem Provers
- Title(参考訳): ソフトな理論証明者に対する論理的一貫した敵攻撃
- Authors: Alexander Gaskell, Yishu Miao, Lucia Specia, Francesca Toni
- Abstract要約: 本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 110.17147570572939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts within the AI community have yielded impressive results
towards "soft theorem proving" over natural language sentences using language
models. We propose a novel, generative adversarial framework for probing and
improving these models' reasoning capabilities. Adversarial attacks in this
domain suffer from the logical inconsistency problem, whereby perturbations to
the input may alter the label. Our Logically consistent AdVersarial Attacker,
LAVA, addresses this by combining a structured generative process with a
symbolic solver, guaranteeing logical consistency. Our framework successfully
generates adversarial attacks and identifies global weaknesses common across
multiple target models. Our analyses reveal naive heuristics and
vulnerabilities in these models' reasoning capabilities, exposing an incomplete
grasp of logical deduction under logic programs. Finally, in addition to
effective probing of these models, we show that training on the generated
samples improves the target model's performance.
- Abstract(参考訳): aiコミュニティにおける最近の取り組みは、言語モデルを用いた自然言語文よりも「ソフト定理証明」に印象的な結果をもたらしている。
我々は,これらのモデルの推論能力を探索し,改善するための新しい生成的敵フレームワークを提案する。
この領域の敵攻撃は論理的矛盾の問題に悩まされ、入力に対する摂動がラベルを変える可能性がある。
論理的一貫したAdVersarial Attacker, LAVAは、構造化生成プロセスとシンボリックソルバを組み合わせることで、論理的一貫性を保証する。
我々のフレームワークは敵攻撃をうまく生成し、複数のターゲットモデルに共通するグローバルな弱点を識別する。
解析の結果,論理プログラム下での論理推論の不完全性が明らかになり,モデル推論能力のナイーブなヒューリスティックスと脆弱性が明らかになった。
最後に,これらのモデルの効果的な探索に加えて,生成したサンプルのトレーニングにより,対象モデルの性能が向上することを示す。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - NatLogAttack: A Framework for Attacking Natural Language Inference Models with Natural Logic [25.09127185703912]
敵の攻撃は、アキレスの犠牲者モデルのヒールを評価する上で重要なツールであることが証明されている。
そこで我々はNatLogAttackを提案する。
既存の攻撃モデルと比較して、NatLogAttackは、犠牲者モデルへの訪問が少なく、より良い敵例を生成する。
論文 参考訳(メタデータ) (2023-07-06T08:32:14Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z) - Certifying Decision Trees Against Evasion Attacks by Program Analysis [9.290879387995401]
本稿では,回避攻撃に対する機械学習モデルの安全性を検証する新しい手法を提案する。
提案手法は,決定木の解釈可能性を利用して命令型プログラムに変換する。
実験の結果,我々の手法は正確かつ効率的であり,最小限の偽陽性しか得られないことが判明した。
論文 参考訳(メタデータ) (2020-07-06T14:18:10Z) - Extending Adversarial Attacks to Produce Adversarial Class Probability
Distributions [1.439518478021091]
高い不正率を維持しながら,クラスに対する確率分布を近似できることを示す。
この結果から, クラスに対する確率分布は, 高い不正率を維持しつつ, 密に近似できることが示唆された。
論文 参考訳(メタデータ) (2020-04-14T09:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。