論文の概要: SparCAssist: A Model Risk Assessment Assistant Based on Sparse Generated
Counterfactuals
- arxiv url: http://arxiv.org/abs/2205.01588v1
- Date: Tue, 3 May 2022 16:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:58:24.210400
- Title: SparCAssist: A Model Risk Assessment Assistant Based on Sparse Generated
Counterfactuals
- Title(参考訳): SparCAssist: Sparse Generated Counterfactualsに基づくモデルリスクアセスメントアシスタント
- Authors: Zijian Zhang, Vinay Setty and Avishek Anand
- Abstract要約: 本研究では,言語タスクのために訓練された機械学習モデルのための汎用リスクアセスメントツールSparcAssistを紹介する。
つまり、与えられたデータインスタンスに基づいて生成されたアウト・オブ・ディストリビューション・インスタンスの振る舞いを検査することで、モデルのリスクを評価する。
システムの主な目的は、人間のアノテータがモデルが展開する際のリスクを評価するのを支援することである。
- 参考スコア(独自算出の注目度): 8.453278415474786
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce SparcAssist, a general-purpose risk assessment tool for the
machine learning models trained for language tasks. It evaluates models' risk
by inspecting their behavior on counterfactuals, namely out-of-distribution
instances generated based on the given data instance. The counterfactuals are
generated by replacing tokens in rational subsequences identified by ExPred,
while the replacements are retrieved using HotFlip or
Masked-Language-Model-based algorithms. The main purpose of our system is to
help the human annotators to assess the model's risk on deployment. The
counterfactual instances generated during the assessment are the by-product and
can be used to train more robust NLP models in the future.
- Abstract(参考訳): 言語タスク用にトレーニングされた機械学習モデルのための汎用リスクアセスメントツールであるsparcassistを紹介する。
与えられたデータインスタンスに基づいて生成された分散インスタンスを偽物として検査することで、モデルのリスクを評価する。
逆事実はexpredによって識別された合理的なサブシーケンスでトークンを置換することで生成され、置換はhotflipまたはマスクド言語モデルベースのアルゴリズムで検索される。
私たちのシステムの主な目的は、人間のアノテータがモデルのデプロイメントリスクを評価するのを支援することです。
評価中に生成された反実例は副産物であり、将来より堅牢なNLPモデルのトレーニングに使用できる。
関連論文リスト
- A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z) - Fast Risk Assessment for Autonomous Vehicles Using Learned Models of
Agent Futures [10.358493658420173]
本稿では,自動走行車における軌道のリスクを評価するために,高速な非サンプリング方式を提案する。
提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測に対する幅広い表現に対処する。
提案手法は、ArgoverseデータセットとCARLAデータセットでトレーニングされたプロパゲートからの現実的な予測に基づいて実証される。
論文 参考訳(メタデータ) (2020-05-27T16:16:36Z) - A Zero-Shot based Fingerprint Presentation Attack Detection System [8.676298469169174]
PADモデルの一般化を保証するため,新しいゼロショット提示検出モデルを提案する。
生成モデルに基づくZSPADモデルでは, 確立過程において負のサンプルを一切利用しない。
本論文では,提案モデルの性能向上のために,9つの信頼性スコアについて論じる。
論文 参考訳(メタデータ) (2020-02-12T10:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。