論文の概要: Fairness in Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.09995v1
- Date: Fri, 16 Jun 2023 17:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 12:42:51.198209
- Title: Fairness in Preference-based Reinforcement Learning
- Title(参考訳): 嗜好に基づく強化学習における公正性
- Authors: Umer Siddique, Abhinav Sinha, Yongcan Cao
- Abstract要約: そこで我々は,FPbRL (FPbRL) を設計した。
FPbRLの主な考え方は、新しい福祉ベースの嗜好を通じて、複数の目的に関連するベクトル報酬関数を学習することである。
実験により,FPbRLアプローチは効率とエクイティの両方を効果的かつ公正な政策で達成できることが示された。
- 参考スコア(独自算出の注目度): 4.258396452892244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we address the issue of fairness in preference-based
reinforcement learning (PbRL) in the presence of multiple objectives. The main
objective is to design control policies that can optimize multiple objectives
while treating each objective fairly. Toward this objective, we design a new
fairness-induced preference-based reinforcement learning or FPbRL. The main
idea of FPbRL is to learn vector reward functions associated with multiple
objectives via new welfare-based preferences rather than reward-based
preference in PbRL, coupled with policy learning via maximizing a generalized
Gini welfare function. Finally, we provide experiment studies on three
different environments to show that the proposed FPbRL approach can achieve
both efficiency and equity for learning effective and fair policies.
- Abstract(参考訳): 本稿では、複数の目的が存在する場合の優先型強化学習(PbRL)における公平性の問題に対処する。
主な目的は、各目的を公平に扱いながら、複数の目的を最適化できる制御ポリシーを設計することである。
この目的に向けて,fpbrl(fairness-induced preference-based reinforcement learning)を新たに設計する。
FPbRLの主な考え方は、PbRLにおける報酬に基づく選好よりも、新たな福祉に基づく選好を通じて、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ福祉関数の最大化による政策学習と合わせて行われる。
最後に,提案手法が効率的かつ公正な政策を学習するための効率性と公平性を両立できることを示すために,3つの異なる環境に関する実験研究を行った。
関連論文リスト
- Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning [3.292607871053364]
実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。
本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。
また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
論文 参考訳(メタデータ) (2024-02-05T01:42:28Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文 参考訳(メタデータ) (2020-08-18T07:17:53Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。