論文の概要: Distributional Multi-Objective Decision Making
- arxiv url: http://arxiv.org/abs/2305.05560v1
- Date: Tue, 9 May 2023 15:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:10:27.456573
- Title: Distributional Multi-Objective Decision Making
- Title(参考訳): 分散多目的意思決定
- Authors: Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann
Now\'e and Diederik M. Roijers
- Abstract要約: 本稿では,政策の回帰分布に関する新たな支配基準を,直接的に導入する。
本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.185694185279913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For effective decision support in scenarios with conflicting objectives, sets
of potentially optimal solutions can be presented to the decision maker. We
explore both what policies these sets should contain and how such sets can be
computed efficiently. With this in mind, we take a distributional approach and
introduce a novel dominance criterion relating return distributions of policies
directly. Based on this criterion, we present the distributional undominated
set and show that it contains optimal policies otherwise ignored by the Pareto
front. In addition, we propose the convex distributional undominated set and
prove that it comprises all policies that maximise expected utility for
multivariate risk-averse decision makers. We propose a novel algorithm to learn
the distributional undominated set and further contribute pruning operators to
reduce the set to the convex distributional undominated set. Through
experiments, we demonstrate the feasibility and effectiveness of these methods,
making this a valuable new approach for decision support in real-world
problems.
- Abstract(参考訳): 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。
これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。
このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。
この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。
さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。
本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。
実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Statistical Inference Under Constrained Selection Bias [20.862583584531322]
本稿では,選択バイアスが存在する場合の統計的推測を可能にする枠組みを提案する。
出力は、目標分布に対する推定値に対する高確率境界である。
我々はこれらの境界を推定するための手法の計算的および統計的特性を分析し、これらの手法が様々なシミュレートされた半合成的なタスクに対して情報的境界を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T23:05:26Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文 参考訳(メタデータ) (2021-10-28T04:13:53Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Decisions, Counterfactual Explanations and Strategic Behavior [16.980621769406923]
戦略的な設定で実用性の観点から最適な政策と対実的な説明を見つける。
事前に定義されたポリシーを考えると、最適の対実的説明の集合を見つける問題はNPハードであることが示される。
本研究では,マトロイド制約を問題定式化に組み込むことで,最適対実的説明セットの多様性を高めることができることを示した。
論文 参考訳(メタデータ) (2020-02-11T12:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。