論文の概要: Navigating the Social Welfare Frontier: Portfolios for Multi-objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.09724v1
- Date: Thu, 13 Feb 2025 19:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:08.638457
- Title: Navigating the Social Welfare Frontier: Portfolios for Multi-objective Reinforcement Learning
- Title(参考訳): 社会福祉フロンティアの旅:多目的強化学習のためのポートフォリオ
- Authors: Cheol Woo Kim, Jai Moondra, Shresth Verma, Madeleine Pollack, Lingkai Kong, Milind Tambe, Swati Gupta,
- Abstract要約: 我々は強化学習における$alpha$-approximate portfolioの概念を研究する。
近似係数、ポートフォリオサイズ、計算効率のトレードオフに関する理論的保証を提供する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 29.937261596364472
- License:
- Abstract: In many real-world applications of reinforcement learning (RL), deployed policies have varied impacts on different stakeholders, creating challenges in reaching consensus on how to effectively aggregate their preferences. Generalized $p$-means form a widely used class of social welfare functions for this purpose, with broad applications in fair resource allocation, AI alignment, and decision-making. This class includes well-known welfare functions such as Egalitarian, Nash, and Utilitarian welfare. However, selecting the appropriate social welfare function is challenging for decision-makers, as the structure and outcomes of optimal policies can be highly sensitive to the choice of $p$. To address this challenge, we study the concept of an $\alpha$-approximate portfolio in RL, a set of policies that are approximately optimal across the family of generalized $p$-means for all $p \in [-\infty, 1]$. We propose algorithms to compute such portfolios and provide theoretical guarantees on the trade-offs among approximation factor, portfolio size, and computational efficiency. Experimental results on synthetic and real-world datasets demonstrate the effectiveness of our approach in summarizing the policy space induced by varying $p$ values, empowering decision-makers to navigate this landscape more effectively.
- Abstract(参考訳): 実世界の強化学習(RL)の多くの応用において、デプロイされたポリシーは異なる利害関係者に様々な影響を与える。
一般化された$p$-meansは、この目的のために広く使われている社会福祉機能のクラスを形成し、フェアリソース割り当て、AIアライメント、意思決定に広く応用されている。
このクラスには、平等主義、ナッシュ、ユーティリティ的福祉など、よく知られた福祉機能が含まれている。
しかし、適切な社会福祉機能を選択することは意思決定者にとって困難であり、最適政策の構造と成果は、$p$の選択に非常に敏感である。
この課題に対処するために、RL における $\alpha$-approximate ポートフォリオの概念について検討する。これは、すべての$p \in [-\infty, 1]$に対して一般化された$p$-means の族に対して、ほぼ最適なポリシーの集合である。
このようなポートフォリオを計算し、近似係数、ポートフォリオサイズ、計算効率のトレードオフに関する理論的保証を提供するアルゴリズムを提案する。
合成および実世界のデータセットに対する実験結果は, 様々な$p$値によって引き起こされる政策空間を要約し, 意思決定者がより効果的にこの風景をナビゲートする上で, このアプローチの有効性を示すものである。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation [0.0]
多目的政策学習は、ポリシー学習のための最適な決定木と、多目的ベイズ最適化アプローチを組み合わせる。
本手法はケニアにおける抗マラリア薬の非価格設定の現実世界のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-12-13T01:39:14Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Balancing Competing Objectives with Noisy Data: Score-Based Classifiers
for Welfare-Aware Machine Learning [43.518329314620416]
我々は、私的目的(利益など)と公共目的(社会福祉など)とを明確にトレードオフするアルゴリズム政策を研究する。
我々の結果は、社会福祉に影響を与える決定に機械学習を使うことにおける本質的にのトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-15T02:49:39Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。