論文の概要: Improving the Adversarial Robustness of NLP Models by Information
Bottleneck
- arxiv url: http://arxiv.org/abs/2206.05511v1
- Date: Sat, 11 Jun 2022 12:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:37:55.978063
- Title: Improving the Adversarial Robustness of NLP Models by Information
Bottleneck
- Title(参考訳): 情報ボトルネックによるnlpモデルの逆ロバスト性向上
- Authors: Cenyuan Zhang, Xiang Zhou, Yixin Wan, Xiaoqing Zheng, Kai-Wei Chang,
Cho-Jui Hsieh
- Abstract要約: 非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
- 参考スコア(独自算出の注目度): 112.44039792098579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies have demonstrated that adversarial examples can be directly
attributed to the presence of non-robust features, which are highly predictive,
but can be easily manipulated by adversaries to fool NLP models. In this study,
we explore the feasibility of capturing task-specific robust features, while
eliminating the non-robust ones by using the information bottleneck theory.
Through extensive experiments, we show that the models trained with our
information bottleneck-based method are able to achieve a significant
improvement in robust accuracy, exceeding performances of all the previously
reported defense methods while suffering almost no performance drop in clean
accuracy on SST-2, AGNEWS and IMDB datasets.
- Abstract(参考訳): 既存の研究では、敵の例は、高い予測力を持つ非破壊的特徴の存在に直接起因できるが、敵がNLPモデルを騙すために容易に操作できることが示されている。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
本研究では,情報ボトルネックに基づく手法を用いてトレーニングしたモデルにおいて,SST-2, AGNEWS, IMDBデータセットの性能低下に悩まされることなく, 従来報告したすべての防衛手法の性能を上回り, 堅牢な精度を向上できることを示す。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
論文 参考訳(メタデータ) (2023-11-18T07:00:56Z) - Towards a robust and reliable deep learning approach for detection of
compact binary mergers in gravitational wave data [0.0]
我々は、段階的に深層学習モデルを開発し、その堅牢性と信頼性の向上に取り組みます。
我々はGAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。
絶対ロバスト性は事実上達成できないが、そのような訓練によって得られるいくつかの根本的な改善を実証する。
論文 参考訳(メタデータ) (2023-06-20T18:00:05Z) - Augmenting NLP data to counter Annotation Artifacts for NLI Tasks [0.0]
大規模な事前トレーニングされたNLPモデルは、ベンチマークデータセット上で高いパフォーマンスを達成するが、基礎となるタスクを実際に"解決"することはない。
モデルの性能の限界を理解するために、まずコントラストと逆例を用いてこの現象を探求する。
次に、このバイアスを修正し、その有効性を測定するためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T15:34:53Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。