論文の概要: Bayesian Persuasion for Algorithmic Recourse
- arxiv url: http://arxiv.org/abs/2112.06283v1
- Date: Sun, 12 Dec 2021 17:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 08:46:01.888221
- Title: Bayesian Persuasion for Algorithmic Recourse
- Title(参考訳): アルゴリズム・リコースのためのベイズ的説得
- Authors: Keegan Harris, Valerie Chen, Joon Sik Kim, Ameet Talwalkar, Hoda
Heidari, Zhiwei Steven Wu
- Abstract要約: いくつかの状況では、根底にある予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションのようなシグナルを、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムを用いて解を特徴づける。
- 参考スコア(独自算出の注目度): 28.586165301962485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When subjected to automated decision-making, decision-subjects will
strategically modify their observable features in ways they believe will
maximize their chances of receiving a desirable outcome. In many situations,
the underlying predictive model is deliberately kept secret to avoid gaming and
maintain competitive advantage. This opacity forces the decision subjects to
rely on incomplete information when making strategic feature modifications. We
capture such settings as a game of Bayesian persuasion, in which the
decision-maker sends a signal, e.g., an action recommendation, to a decision
subject to incentivize them to take desirable actions. We formulate the
decision-maker's problem of finding the optimal Bayesian incentive-compatible
(BIC) action recommendation policy as an optimization problem and characterize
the solution via a linear program. Through this characterization, we observe
that while the problem of finding the optimal BIC recommendation policy can be
simplified dramatically, the computational complexity of solving this linear
program is closely tied to (1) the relative size of the decision-subjects'
action space, and (2) the number of features utilized by the underlying
predictive model. Finally, we provide bounds on the performance of the optimal
BIC recommendation policy and show that it can lead to arbitrarily better
outcomes compared to standard baselines.
- Abstract(参考訳): 自動的な意思決定を受けると、意思決定対象は観察可能な特徴を、望ましい結果を得るチャンスを最大化する方法で戦略的に修正します。
多くの状況において、基礎となる予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
この不透明さにより、決定対象は戦略的特徴修正を行う際に不完全な情報に頼ることになる。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションなどの信号を、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムによるソリューションの特徴付けを行う。
この特徴から, 最適BIC推薦法を求める問題は劇的に単純化できるが, この線形プログラムを解く際の計算複雑性は, (1) 決定対象の行動空間の相対的サイズと, (2) 基礎となる予測モデルによって活用される特徴の数と密接に関連していることがわかった。
最後に、最適なbic推奨ポリシーの性能に関する限界を提供し、標準ベースラインと比較して任意により良い結果をもたらすことができることを示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Optimization's Neglected Normative Commitments [3.3388234549922027]
潜在的に高い意思決定にアプローチするために使用されるパラダイムは、現実世界を決定(s)、目的(s)、制約(s)の集合に抽象化することに依存している。
本稿では,最適化に必須の規範的選択と仮定について述べる。
その後、無視される可能性のある6つの緊急問題を特定する。
論文 参考訳(メタデータ) (2023-05-27T12:43:15Z) - Algorithmic Assistance with Recommendation-Dependent Preferences [2.864550757598007]
選択に影響を及ぼすアルゴリズムレコメンデーションの効果と設計について考察する。
我々は、レコメンデーションに依存した選好が、意思決定者がレコメンデーションに過度に反応する非効率性を生み出すことを示す。
論文 参考訳(メタデータ) (2022-08-16T09:24:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。
私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。
3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-24T03:57:22Z) - Decisions, Counterfactual Explanations and Strategic Behavior [16.980621769406923]
戦略的な設定で実用性の観点から最適な政策と対実的な説明を見つける。
事前に定義されたポリシーを考えると、最適の対実的説明の集合を見つける問題はNPハードであることが示される。
本研究では,マトロイド制約を問題定式化に組み込むことで,最適対実的説明セットの多様性を高めることができることを示した。
論文 参考訳(メタデータ) (2020-02-11T12:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。