Fugu-MT 論文翻訳(概要): SafeAR: Towards Safer Algorithmic Recourse by Risk-Aware Policies

論文の概要: SafeAR: Towards Safer Algorithmic Recourse by Risk-Aware Policies

arxiv url: http://arxiv.org/abs/2308.12367v2
Date: Fri, 15 Dec 2023 15:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 19:11:55.111644
Title: SafeAR: Towards Safer Algorithmic Recourse by Risk-Aware Policies
Title（参考訳）: safear: リスクアウェアポリシによるより安全なアルゴリズムリコースに向けて
Authors: Haochen Wu, Shubham Sharma, Sunandita Patra, Sriram Gopalakrishnan
Abstract要約: 本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
参考スコア（独自算出の注目度）: 2.291948092032746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the growing use of machine learning (ML) models in critical domains such as finance and healthcare, the need to offer recourse for those adversely affected by the decisions of ML models has become more important; individuals ought to be provided with recommendations on actions to take for improving their situation and thus receiving a favorable decision. Prior work on sequential algorithmic recourse -- which recommends a series of changes -- focuses on action feasibility and uses the proximity of feature changes to determine action costs. However, the uncertainties of feature changes and the risk of higher than average costs in recourse have not been considered. It is undesirable if a recourse could (with some probability) result in a worse situation from which recovery requires an extremely high cost. It is essential to incorporate risks when computing and evaluating recourse. We call the recourse computed with such risk considerations as Safer Algorithmic Recourse (SafeAR). The objective is to empower people to choose a recourse based on their risk tolerance. In this work, we discuss and show how existing recourse desiderata can fail to capture the risk of higher costs. We present a method to compute recourse policies that consider variability in cost and connect algorithmic recourse literature with risk-sensitive reinforcement learning. We also adopt measures "Value at Risk" and "Conditional Value at Risk" from the financial literature to summarize risk concisely. We apply our method to two real-world datasets and compare policies with different risk-aversion levels using risk measures and recourse desiderata (sparsity and proximity).
Abstract（参考訳）: 金融や医療といった重要な分野における機械学習(ML)モデルの利用の増加に伴い、MLモデルの決定に悪影響を及ぼす人々に対して、レコメンデーションを提供する必要性が高まっている。一連の変更を推奨するシーケンシャルアルゴリズムのリコースに関する以前の作業は、アクションの実現性を重視し、機能変更の近接を利用してアクションコストを決定する。しかし,リコースにおける特徴変化の不確実性と平均コストよりも高いリスクは考慮されていない。もしリカバリが極めて高いコストを必要とする状況で(ある程度の確率で)悪化する可能性があるなら、それは望ましくない。再帰を計算し評価する場合、リスクを組み込むことが不可欠である。サファーアルゴリズム・リコース(SafeAR)のようなリスクを考慮したリコースを計算した。その目的は、リスク許容度に基づいてリコースを選択する権限を人々に与えることだ。本研究では,既存のデシラタが高コストのリスクを捕捉できないことを議論し,示す。本稿では,コストの変動性を考慮したリコースポリシを算出し,アルゴリズムリコース文献とリスクに敏感な強化学習を結びつける手法を提案する。また、リスクを簡潔に要約するために、金融文献から「リスク価値」と「リスク条件価値」を取り入れる。提案手法を実世界の2つのデータセットに適用し,リスク尺度とレコース・デシダータ(スパーシティと近接性)を用いて,異なるリスク回避レベルでポリシーを比較する。

関連論文リスト

Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文参考訳（メタデータ） (2024-09-30T04:02:52Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。 RiskQは広範な実験によって有望な性能が得られることを示す。
論文参考訳（メタデータ） (2023-11-03T07:18:36Z)
Eliciting Risk Aversion with Inverse Reinforcement Learning via Interactive Questioning [0.0]
本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。エージェントのリスク回避は、質問の数が無限大になる傾向があり、質問がランダムに設計されるため、特定できることを示す。我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
論文参考訳（メタデータ） (2023-08-16T15:17:57Z)
A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文参考訳（メタデータ） (2022-08-19T00:55:05Z)
A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文参考訳（メタデータ） (2022-05-12T02:20:34Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures [1.2891210250935146]
そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
論文参考訳（メタデータ） (2021-09-09T02:52:06Z)
Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文参考訳（メタデータ） (2021-06-11T11:31:04Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。 RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文参考訳（メタデータ） (2020-06-22T19:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。