論文の概要: State-Visitation Fairness in Average-Reward MDPs
- arxiv url: http://arxiv.org/abs/2102.07120v1
- Date: Sun, 14 Feb 2021 10:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 06:02:11.069320
- Title: State-Visitation Fairness in Average-Reward MDPs
- Title(参考訳): 平均報酬MDPの現状と公平性
- Authors: Ganesh Ghalme, Vineet Nair, Vishakha Patil, Yilun Zhou
- Abstract要約: 我々は,時間的拡大した意思決定,特にマルコフ決定プロセス(mdps)を定式化した意思決定場面における公平性について検討する。
提案する公平性の概念は,各州の長期訪問頻度が指定された割合以上であることを保証する。
提案手法は,予測平均逆方向と長期状態視周波数の同時近似を保証する。
- 参考スコア(独自算出の注目度): 5.190207094732672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fairness has emerged as an important concern in automated decision-making in
recent years, especially when these decisions affect human welfare. In this
work, we study fairness in temporally extended decision-making settings,
specifically those formulated as Markov Decision Processes (MDPs). Our proposed
notion of fairness ensures that each state's long-term visitation frequency is
more than a specified fraction. In an average-reward MDP (AMDP) setting, we
formulate the problem as a bilinear saddle point program and, for a generative
model, solve it using a Stochastic Mirror Descent (SMD) based algorithm. The
proposed solution guarantees a simultaneous approximation on the expected
average-reward and the long-term state-visitation frequency. We validate our
theoretical results with experiments on synthetic data.
- Abstract(参考訳): フェアネスは、特にこれらの決定が人間の福祉に影響を与える場合、近年、自動意思決定において重要な関心事となっている。
本研究では,時間的拡大した意思決定,特にマルコフ決定プロセス(mdps)として定式化された意思決定における公平性について検討する。
提案する公平性の概念は,各州の長期訪問頻度が指定された割合以上であることを保証する。
平均逆 MDP (AMDP) では,この問題を双線形サドル点プログラムとして定式化し,生成モデルでは確率ミラーDescent (SMD) に基づくアルゴリズムを用いて解いた。
提案手法は,予測平均逆方向と長期状態視周波数の同時近似を保証する。
合成データに関する実験により理論的結果を検証する。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Long-Term Fair Decision Making through Deep Generative Models [12.333165351086171]
本稿では,連続的な意思決定システムにおいて,グループ格差を長期にわたって緩和することを目的とした,長期的公正な機械学習について検討する。
時間的因果グラフを利用して、異なる人口集団の介入分布間の1-ワッサーシュタイン距離を定量的な尺度として十分に大きな時間ステップで利用する。
深層生成モデルにより生成された高忠実度データに基づいて決定モデルを訓練する3相学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T17:44:50Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Achieving Long-Term Fairness in Sequential Decision Making [9.046461405943502]
本稿では,長期的公正な意思決定を実現するための枠組みを提案する。
我々は,長期的公正度を測定するための定量的ツールとして,時間ラベル付き因果グラフに対する経路特異的な効果を考察した。
論文 参考訳(メタデータ) (2022-04-04T20:05:44Z) - Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process [0.0]
スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
論文 参考訳(メタデータ) (2021-12-13T11:40:55Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。