論文の概要: Can Rationalization Improve Robustness?
- arxiv url: http://arxiv.org/abs/2204.11790v1
- Date: Mon, 25 Apr 2022 17:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:50:55.951566
- Title: Can Rationalization Improve Robustness?
- Title(参考訳): 合理化はロバスト性を改善するか?
- Authors: Howard Chen, Jacqueline He, Karthik Narasimhan, Danqi Chen
- Abstract要約: ニューラルNLPモデルが、その解釈可能な性質に加えて、敵攻撃に対して堅牢性をもたらすかどうかを検討する。
トークンと文レベルの合理化タスクの両方に対して,さまざまなタイプのAddText攻撃を生成する。
実験の結果、合理的モデルでは、特定のシナリオで苦労しながら、堅牢性を改善するという約束が示されることがわかった。
- 参考スコア(独自算出の注目度): 39.741059642044874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing line of work has investigated the development of neural NLP models
that can produce rationales--subsets of input that can explain their model
predictions. In this paper, we ask whether such rationale models can also
provide robustness to adversarial attacks in addition to their interpretable
nature. Since these models need to first generate rationales ("rationalizer")
before making predictions ("predictor"), they have the potential to ignore
noise or adversarially added text by simply masking it out of the generated
rationale. To this end, we systematically generate various types of 'AddText'
attacks for both token and sentence-level rationalization tasks, and perform an
extensive empirical evaluation of state-of-the-art rationale models across five
different tasks. Our experiments reveal that the rationale models show the
promise to improve robustness, while they struggle in certain scenarios--when
the rationalizer is sensitive to positional bias or lexical choices of attack
text. Further, leveraging human rationale as supervision does not always
translate to better performance. Our study is a first step towards exploring
the interplay between interpretability and robustness in the
rationalize-then-predict framework.
- Abstract(参考訳): 成長している研究のラインは、モデル予測を説明する入力のサブセットを合理的に生成できるニューラルnlpモデルの開発を調査した。
本稿では,このような合理的モデルが,解釈可能な性質に加えて,敵攻撃に対して堅牢性をもたらすかどうかを問う。
これらのモデルは、予測("predictor")する前に最初に合理性("rationalizer")を生成する必要があるため、生成された合理性から単に隠して、ノイズを無視したり、逆にテキストを追加したりできる可能性がある。
この目的のために,トークンと文レベルの合理化タスクの両方に対して,様々な種類の「付加文」攻撃を体系的に生成し,5つの異なるタスクにまたがる最先端合理化モデルの広範な経験的評価を行う。
私たちの実験では、合理的なモデルがロバスト性を改善するという約束を示しつつ、特定のシナリオで苦労していることを示しています。
さらに、人間の合理性を監督として活用することは、常により良いパフォーマンスをもたらすとは限らない。
本研究は,合理化予測フレームワークにおける解釈可能性と頑健性の間の相互作用を探求する第一歩である。
関連論文リスト
- Adversarial Attack for Explanation Robustness of Rationalization Models [17.839644167949906]
合理化モデルは、人間が予測を理解し、信頼するために、入力テキストのサブセットを選択する。
本論文は, 合理化モデルの説明可能性について, 予測を変更せずに損なうことを目的としている。
論文 参考訳(メタデータ) (2024-08-20T12:43:58Z) - Characterizing Large Language Models as Rationalizers of
Knowledge-intensive Tasks [6.51301154858045]
大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。
専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。
驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。
論文 参考訳(メタデータ) (2023-11-09T01:04:44Z) - Unsupervised Selective Rationalization with Noise Injection [7.17737088382948]
教師なし選択的合理化は、2つの共同訓練されたコンポーネント、有理生成器と予測器をチェーンすることで、予測と共に有理性を生成する。
本稿では,生成器と予測器との間にノイズを注入することにより,有理数生成を効果的に抑制する新しい訓練手法を提案する。
新しいベンチマークを含め、さまざまなタスクにおける最先端技術に対する合理的な妥当性とタスク精度の大幅な改善を実現しています。
論文 参考訳(メタデータ) (2023-05-27T17:34:36Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Learning to Rationalize for Nonmonotonic Reasoning with Distant
Supervision [44.32874972577682]
モデル予測を説明する自然言語の理性について,ニューラルモデルが判断できる範囲について検討する。
トレーニング済みの言語モデル、ニューラルナレッジモデル、関連するタスクからの遠隔監視を使用します。
我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束している。
論文 参考訳(メタデータ) (2020-12-14T23:50:20Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。