論文の概要: Fairness in Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.09995v2
- Date: Fri, 1 Sep 2023 05:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:29:09.314798
- Title: Fairness in Preference-based Reinforcement Learning
- Title(参考訳): 嗜好に基づく強化学習における公正性
- Authors: Umer Siddique, Abhinav Sinha, Yongcan Cao
- Abstract要約: そこで我々は,FPbRL (FPbRL) を設計した。
FPbRLの主な考え方は、新しい福祉ベースの嗜好を通じて、複数の目的に関連するベクトル報酬関数を学習することである。
実験により,FPbRLアプローチは効率とエクイティの両方を効果的かつ公正な政策で達成できることが示された。
- 参考スコア(独自算出の注目度): 2.3388338598125196
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we address the issue of fairness in preference-based
reinforcement learning (PbRL) in the presence of multiple objectives. The main
objective is to design control policies that can optimize multiple objectives
while treating each objective fairly. Toward this objective, we design a new
fairness-induced preference-based reinforcement learning or FPbRL. The main
idea of FPbRL is to learn vector reward functions associated with multiple
objectives via new welfare-based preferences rather than reward-based
preference in PbRL, coupled with policy learning via maximizing a generalized
Gini welfare function. Finally, we provide experiment studies on three
different environments to show that the proposed FPbRL approach can achieve
both efficiency and equity for learning effective and fair policies.
- Abstract(参考訳): 本稿では、複数の目的が存在する場合の優先型強化学習(PbRL)における公平性の問題に対処する。
主な目的は、各目的を公平に扱いながら、複数の目的を最適化できる制御ポリシーを設計することである。
この目的に向けて,fpbrl(fairness-induced preference-based reinforcement learning)を新たに設計する。
FPbRLの主な考え方は、PbRLにおける報酬に基づく選好よりも、新たな福祉に基づく選好を通じて、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ福祉関数の最大化による政策学習と合わせて行われる。
最後に,提案手法が効率的かつ公正な政策を学習するための効率性と公平性を両立できることを示すために,3つの異なる環境に関する実験研究を行った。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement
Learning for Discrete Prompt Optimization [49.60729578316884]
RLベースの手法は、ユーザーが指定した報酬関数の集合を最大化するプロンプトの探索に使用できる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
本稿では,RLに基づく離散的なプロンプト最適化に,多目的最適化のためのいくつかの手法を適用する。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning [3.292607871053364]
実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。
本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。
また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
論文 参考訳(メタデータ) (2024-02-05T01:42:28Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文 参考訳(メタデータ) (2020-08-18T07:17:53Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。