論文の概要: On the Safety of Interpretable Machine Learning: A Maximum Deviation
Approach
- arxiv url: http://arxiv.org/abs/2211.01498v1
- Date: Wed, 2 Nov 2022 21:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:33:52.822951
- Title: On the Safety of Interpretable Machine Learning: A Maximum Deviation
Approach
- Title(参考訳): 解釈可能な機械学習の安全性について:最大偏差アプローチ
- Authors: Dennis Wei, Rahul Nair, Amit Dhurandhar, Kush R. Varshney, Elizabeth
M. Daly, Moninder Singh
- Abstract要約: 解釈可能で説明可能な機械学習は、最近関心が高まっている。
我々は、この急上昇の背後にある主要な動機として安全に焦点を当て、解釈可能性と安全性の関係をより定量的なものにします。
本研究は、住宅ローンの承認を含むケーススタディで、その方法と、逸脱から得られる可能性のあるモデルについての洞察を説明する。
- 参考スコア(独自算出の注目度): 42.31002956593477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable and explainable machine learning has seen a recent surge of
interest. We focus on safety as a key motivation behind the surge and make the
relationship between interpretability and safety more quantitative. Toward
assessing safety, we introduce the concept of maximum deviation via an
optimization problem to find the largest deviation of a supervised learning
model from a reference model regarded as safe. We then show how
interpretability facilitates this safety assessment. For models including
decision trees, generalized linear and additive models, the maximum deviation
can be computed exactly and efficiently. For tree ensembles, which are not
regarded as interpretable, discrete optimization techniques can still provide
informative bounds. For a broader class of piecewise Lipschitz functions, we
leverage the multi-armed bandit literature to show that interpretability
produces tighter (regret) bounds on the maximum deviation. We present case
studies, including one on mortgage approval, to illustrate our methods and the
insights about models that may be obtained from deviation maximization.
- Abstract(参考訳): 解釈可能で説明可能な機械学習は、最近関心が高まっている。
我々は、急上昇の背後にある重要な動機として安全性に焦点を当て、解釈可能性と安全性の関係をより定量的にする。
安全性を評価するために、最適化問題を通じて最大偏差の概念を導入し、安全と見なされる参照モデルから教師付き学習モデルの最大偏差を求める。
次に,この安全性評価が解釈可能性にどのように寄与するかを示す。
決定木、一般化線形および加法モデルを含むモデルの場合、最大偏差は正確かつ効率的に計算できる。
解釈可能でない木アンサンブルに対しては、離散最適化技術は情報的境界を提供することができる。
リプシッツ関数のより広いクラスに対して、解釈可能性が最大偏差に対してより厳密な(回帰)境界を生み出すことを示すために、多腕のバンディット文献を利用する。
住宅ローンの承認を含むケーススタディを行い、偏差最大化から得られる可能性のあるモデルについての考察と方法を説明する。
関連論文リスト
- Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - Nevermind: Instruction Override and Moderation in Large Language Models [2.0935496890864207]
競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。
提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
論文 参考訳(メタデータ) (2024-02-05T18:58:19Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Maximum Likelihood Constraint Inference from Stochastic Demonstrations [5.254702845143088]
本稿では,最大因果エントロピー推定を用いて,最大確率制約推論を応用に拡張する。
本稿では,ベルマンバックアップにおける制約可能性とリスク許容性を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-24T20:46:55Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。