論文の概要: Welfare and Fairness in Multi-objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01382v1
- Date: Wed, 30 Nov 2022 01:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 12:51:50.266563
- Title: Welfare and Fairness in Multi-objective Reinforcement Learning
- Title(参考訳): 多目的強化学習における福祉と公正
- Authors: Zimeng Fan, Nianli Peng, Muhang Tian, and Brandon Fain
- Abstract要約: エージェントは,ベクトル値報酬の多次元における高い報酬を同時に達成する政策を学習しなければならない,公平な多目的強化学習について検討する。
提案手法は,線形スカラー化に基づく手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.505392737753691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fair multi-objective reinforcement learning in which an agent must
learn a policy that simultaneously achieves high reward on multiple dimensions
of a vector-valued reward. Motivated by the fair resource allocation
literature, we model this as an expected welfare maximization problem, for some
non-linear fair welfare function of the vector of long-term cumulative rewards.
One canonical example of such a function is the Nash Social Welfare, or
geometric mean, the log transform of which is also known as the Proportional
Fairness objective. We show that even approximately optimal optimization of the
expected Nash Social Welfare is computationally intractable even in the tabular
case. Nevertheless, we provide a novel adaptation of Q-learning that combines
non-linear scalarized learning updates and non-stationary action selection to
learn effective policies for optimizing nonlinear welfare functions. We show
that our algorithm is provably convergent, and we demonstrate experimentally
that our approach outperforms techniques based on linear scalarization,
mixtures of optimal linear scalarizations, or stationary action selection for
the Nash Social Welfare Objective.
- Abstract(参考訳): エージェントがベクトル値の報酬の多次元における高い報酬を同時に達成するポリシーを学習しなければならない、公平な多目的強化学習について検討する。
公平な資源配分の文献に動機づけられ, 長期累積報酬ベクトルの非線形公正福祉関数に対して, 期待される福祉最大化問題としてモデル化した。
そのような機能の典型例の1つはナッシュ社会福祉(英語版)(幾何学的平均)であり、その対数変換は比例フェアネス目的(英語版)(Proportional Fairness objective)とも呼ばれる。
その結果,ナッシュ社会福祉の最適最適化は,表例においても計算上難解であることがわかった。
それにもかかわらず,非線形スカラー化学習更新と非定常行動選択を組み合わせた,非線形福祉機能の最適化のための効果的な方針を学習するための新しいq-learning適応を提案する。
提案手法は, 線形スカラー化, 最適線形スカラー化の混合, ナッシュ社会福祉目的のための定常的行動選択に基づく手法よりも優れていることを示す。
関連論文リスト
- A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。
非線形最適化のためのベルマン最適性の拡張形式を導出する。
アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文 参考訳(メタデータ) (2023-11-05T02:11:07Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Specification-Guided Learning of Nash Equilibria with High Social
Welfare [21.573746897846114]
ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。
このアルゴリズムは高い社会福祉と均衡政策を計算しているのに対し、最先端のベースラインはナッシュ均衡の計算に失敗したり、比較的低い社会福祉の計算に失敗したりする。
論文 参考訳(メタデータ) (2022-06-06T16:06:31Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。