論文の概要: Socially Fair Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.12584v2
- Date: Fri, 3 Feb 2023 11:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 10:44:06.998078
- Title: Socially Fair Reinforcement Learning
- Title(参考訳): 社会的に公正な強化学習
- Authors: Debmalya Mandal, and Jiarui Gan
- Abstract要約: 報酬関数の異なる複数の利害関係者が存在する場合のエピソード強化学習の問題点を考察する。
私たちのゴールは、異なる報酬関数に関して社会的に公平なポリシーを出力することです。
- 参考スコア(独自算出の注目度): 12.355178067498073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of episodic reinforcement learning where there are
multiple stakeholders with different reward functions. Our goal is to output a
policy that is socially fair with respect to different reward functions. Prior
works have proposed different objectives that a fair policy must optimize
including minimum welfare, and generalized Gini welfare. We first take an
axiomatic view of the problem, and propose four axioms that any such fair
objective must satisfy. We show that the Nash social welfare is the unique
objective that uniquely satisfies all four objectives, whereas prior objectives
fail to satisfy all four axioms. We then consider the learning version of the
problem where the underlying model i.e. Markov decision process is unknown. We
consider the problem of minimizing regret with respect to the fair policies
maximizing three different fair objectives -- minimum welfare, generalized Gini
welfare, and Nash social welfare. Based on optimistic planning, we propose a
generic learning algorithm and derive its regret bound with respect to the
three different policies. For the objective of Nash social welfare, we also
derive a lower bound in regret that grows exponentially with $n$, the number of
agents. Finally, we show that for the objective of minimum welfare, one can
improve regret by a factor of $O(H)$ for a weaker notion of regret.
- Abstract(参考訳): 我々は,報奨機能が異なる複数の利害関係者が存在するエピソディクス強化学習の問題を考える。
私たちのゴールは、異なる報酬関数に関して社会的に公平なポリシーを出力することです。
先行研究は、公平な政策は最小の福祉、一般化されたジニ福祉を含め、最適化しなければならないという異なる目的を提案してきた。
まず、この問題の公理的見解を取り、そのような公正な目的が満たさなければならない4つの公理を提案する。
ナッシュ社会福祉は4つの目的すべてに一意に満足するユニークな目的であるが、先行する目的は4つの公理をすべて満たさない。
次に、基礎となるモデル、すなわちマルコフ決定プロセスが不明な問題の学習バージョンを検討する。
最低限の福祉、一般的なジニ福祉、ナッシュ社会福祉という3つの公平な目的を最大化する公正な政策に関して、後悔を最小化する問題を考える。
楽観的計画に基づいて, 汎用学習アルゴリズムを提案し, その後悔を3つの異なる方針に限定して導出する。
ナッシュ社会福祉の目的のために、我々はまた、エージェント数である$n$で指数関数的に増加する後悔の少ない限界を導き出す。
最後に、最小限の福祉の目的のために、後悔の弱い概念のために、$O(H)$で後悔を改善することができることを示す。
関連論文リスト
- Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning [7.740002320506015]
一定の負の報酬を用いて2~3時間以内に画素ベースのポリシーをスクラッチから学習できることが示される。
4つの異なる実ロボティックプラットフォームを用いて, 一定の負の報酬を用いて, ゼロから2~3時間以内に画素ベースのポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-29T05:55:33Z) - Axioms for AI Alignment from Human Feedback [44.51306968484829]
我々は、強力な公理保証を持つ報酬関数を学習するための新しいルールを開発する。
社会的選択の観点からの重要な革新は、我々の問題が線形構造を持っていることである。
論文 参考訳(メタデータ) (2024-05-23T16:29:29Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Social Diversity Reduces the Complexity and Cost of Fostering Fairness [63.70639083665108]
不完全な情報や公平性の柔軟な基準を前提とした干渉機構の効果について検討する。
多様性の役割を定量化し、情報収集の必要性を減らす方法を示す。
この結果から,多様性が変化し,公正性向上を目指す機関に新たなメカニズムが開放されることが示唆された。
論文 参考訳(メタデータ) (2022-11-18T21:58:35Z) - Specification-Guided Learning of Nash Equilibria with High Social
Welfare [21.573746897846114]
ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。
このアルゴリズムは高い社会福祉と均衡政策を計算しているのに対し、最先端のベースラインはナッシュ均衡の計算に失敗したり、比較的低い社会福祉の計算に失敗したりする。
論文 参考訳(メタデータ) (2022-06-06T16:06:31Z) - Setting Fair Incentives to Maximize Improvement [11.078814063722803]
短期目標を設定することでエージェントの改善を支援するという課題について考察する。
主要な技術的課題は、目標レベルのセットにおける社会福祉の非単調性である。
社会福祉と公正目的の両面での最適・準最適改善のためのアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-28T23:09:40Z) - Inferring Lexicographically-Ordered Rewards from Preferences [82.42854687952115]
本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
論文 参考訳(メタデータ) (2022-02-21T12:01:41Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Bandit Labor Training [2.28438857884398]
オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。
限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。
どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
論文 参考訳(メタデータ) (2020-06-11T21:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。