Fugu-MT 論文翻訳(概要): Distributional Multi-Objective Decision Making

論文の概要: Distributional Multi-Objective Decision Making

arxiv url: http://arxiv.org/abs/2305.05560v1
Date: Tue, 9 May 2023 15:47:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 12:10:27.456573
Title: Distributional Multi-Objective Decision Making
Title（参考訳）: 分散多目的意思決定
Authors: Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann Now\'e and Diederik M. Roijers
Abstract要約: 本稿では,政策の回帰分布に関する新たな支配基準を,直接的に導入する。本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 2.185694185279913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For effective decision support in scenarios with conflicting objectives, sets of potentially optimal solutions can be presented to the decision maker. We explore both what policies these sets should contain and how such sets can be computed efficiently. With this in mind, we take a distributional approach and introduce a novel dominance criterion relating return distributions of policies directly. Based on this criterion, we present the distributional undominated set and show that it contains optimal policies otherwise ignored by the Pareto front. In addition, we propose the convex distributional undominated set and prove that it comprises all policies that maximise expected utility for multivariate risk-averse decision makers. We propose a novel algorithm to learn the distributional undominated set and further contribute pruning operators to reduce the set to the convex distributional undominated set. Through experiments, we demonstrate the feasibility and effectiveness of these methods, making this a valuable new approach for decision support in real-world problems.
Abstract（参考訳）: 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。

関連論文リスト

Exploration-free Algorithms for Multi-group Mean Estimation [7.480522058240762]
提案手法は,複数グループにまたがる有限サンプリング予算を割り当てて,その平均を均一に正確に推定する多群平均推定の問題に対処する。この設定における最適な割り当ては、$Theta(T)$ timesの順序ですべてのグループをサンプリングする必要がある。
論文参考訳（メタデータ） (2025-10-12T00:20:30Z)
Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids [37.79354987519793]
本研究では,実証を通じて提供される専門家の行動を,新たな環境や追加制約に一般化する問題について検討する。本稿では,ある有界部分集合における報酬によって引き起こされる「平均」ポリシーを選択する,新しい原理的基準を提案する。
論文参考訳（メタデータ） (2025-09-15T14:53:54Z)
Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.562479170374811]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。提案手法は,精度と試料効率の両面で既存手法より優れている。
論文参考訳（メタデータ） (2025-06-27T14:21:03Z)
Fair Resource Allocation in Weakly Coupled Markov Decision Processes [3.824858358548714]
マルコフ決定過程の弱結合としてモデル化された逐次的意思決定環境における資源配分について考察する。我々は、従来の実用的(total-sum)目的ではなく、一般化されたジーニ関数を用いた公正性の定義を採用する。
論文参考訳（メタデータ） (2024-11-14T20:40:55Z)
Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文参考訳（メタデータ） (2024-02-15T19:18:47Z)
Learning Fair Policies for Multi-stage Selection Problems from Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T16:33:15Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Statistical Inference Under Constrained Selection Bias [20.862583584531322]
本稿では,選択バイアスが存在する場合の統計的推測を可能にする枠組みを提案する。出力は、目標分布に対する推定値に対する高確率境界である。我々はこれらの境界を推定するための手法の計算的および統計的特性を分析し、これらの手法が様々なシミュレートされた半合成的なタスクに対して情報的境界を生成可能であることを示す。
論文参考訳（メタデータ） (2023-06-05T23:05:26Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文参考訳（メタデータ） (2022-09-05T23:51:07Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Decisions, Counterfactual Explanations and Strategic Behavior [16.980621769406923]
戦略的な設定で実用性の観点から最適な政策と対実的な説明を見つける。事前に定義されたポリシーを考えると、最適の対実的説明の集合を見つける問題はNPハードであることが示される。本研究では,マトロイド制約を問題定式化に組み込むことで,最適対実的説明セットの多様性を高めることができることを示した。
論文参考訳（メタデータ） (2020-02-11T12:04:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。