論文の概要: Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards
- arxiv url: http://arxiv.org/abs/2008.07773v1
- Date: Tue, 18 Aug 2020 07:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:36:02.028781
- Title: Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards
- Title(参考訳): 平均および割引報酬を用いた多目的強化学習における公平な政策の学習
- Authors: Umer Siddique, Paul Weng, Matthieu Zimmer
- Abstract要約: 利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
- 参考スコア(独自算出の注目度): 15.082715993594121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the operations of autonomous systems generally affect simultaneously
several users, it is crucial that their designs account for fairness
considerations. In contrast to standard (deep) reinforcement learning (RL), we
investigate the problem of learning a policy that treats its users equitably.
In this paper, we formulate this novel RL problem, in which an objective
function, which encodes a notion of fairness that we formally define, is
optimized. For this problem, we provide a theoretical discussion where we
examine the case of discounted rewards and that of average rewards. During this
analysis, we notably derive a new result in the standard RL setting, which is
of independent interest: it states a novel bound on the approximation error
with respect to the optimal average reward of that of a policy optimal for the
discounted reward. Since learning with discounted rewards is generally easier,
this discussion further justifies finding a fair policy for the average reward
by learning a fair policy for the discounted reward. Thus, we describe how
several classic deep RL algorithms can be adapted to our fair optimization
problem, and we validate our approach with extensive experiments in three
different domains.
- Abstract(参考訳): 自律システムの運用は、一般に複数のユーザに影響を与えるため、その設計が公平性を考慮していることが重要である。
標準(深度)強化学習(RL)とは対照的に,ユーザを公平に扱う政策を学ぶことの問題点を考察する。
本稿では、我々が形式的に定義する公平性の概念を符号化する目的関数を最適化した、この新しいrl問題を定式化する。
そこで本研究では,割引報酬の事例と平均報酬の事例を理論的に考察する。
この分析において、特に、標準的なRL設定における新しい結果が導出され、これは独立な関心事であり、割引された報酬に最適な政策の報酬の最適平均値に関して近似誤差に縛られた小説が述べられている。
割引報酬による学習は概ね容易であるため、割引報酬に対する公正な政策を学ぶことで平均報酬に対する公正な政策の発見をさらに正当化する。
そこで本稿では,古典的深部RLアルゴリズムを最適化問題に適応させる方法について述べるとともに,そのアプローチを3つの領域で広範な実験により検証する。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Fairness in Preference-based Reinforcement Learning [2.3388338598125196]
そこで我々は,FPbRL (FPbRL) を設計した。
FPbRLの主な考え方は、新しい福祉ベースの嗜好を通じて、複数の目的に関連するベクトル報酬関数を学習することである。
実験により,FPbRLアプローチは効率とエクイティの両方を効果的かつ公正な政策で達成できることが示された。
論文 参考訳(メタデータ) (2023-06-16T17:47:36Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。
提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文 参考訳(メタデータ) (2023-02-01T06:25:46Z) - Examining average and discounted reward optimality criteria in
reinforcement learning [4.873362301533825]
2つの主要な最適基準は平均と割引報酬であり、後者は一般に前者の近似と見なされる。
割引報酬はより人気があるが、割引という自然な概念を持たない環境で適用することは問題となる。
我々の貢献には、平均的な報酬と割引された報酬の関係を徹底的に検討することや、RLにおける彼らの長所と短所の議論が含まれる。
論文 参考訳(メタデータ) (2021-07-03T05:28:56Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。