Fugu-MT 論文翻訳(概要): Fairness in Preference-based Reinforcement Learning

論文の概要: Fairness in Preference-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.09995v2
Date: Fri, 1 Sep 2023 05:04:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 16:29:09.314798
Title: Fairness in Preference-based Reinforcement Learning
Title（参考訳）: 嗜好に基づく強化学習における公正性
Authors: Umer Siddique, Abhinav Sinha, Yongcan Cao
Abstract要約: そこで我々は,FPbRL (FPbRL) を設計した。 FPbRLの主な考え方は、新しい福祉ベースの嗜好を通じて、複数の目的に関連するベクトル報酬関数を学習することである。実験により,FPbRLアプローチは効率とエクイティの両方を効果的かつ公正な政策で達成できることが示された。
参考スコア（独自算出の注目度）: 2.3388338598125196
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we address the issue of fairness in preference-based reinforcement learning (PbRL) in the presence of multiple objectives. The main objective is to design control policies that can optimize multiple objectives while treating each objective fairly. Toward this objective, we design a new fairness-induced preference-based reinforcement learning or FPbRL. The main idea of FPbRL is to learn vector reward functions associated with multiple objectives via new welfare-based preferences rather than reward-based preference in PbRL, coupled with policy learning via maximizing a generalized Gini welfare function. Finally, we provide experiment studies on three different environments to show that the proposed FPbRL approach can achieve both efficiency and equity for learning effective and fair policies.
Abstract（参考訳）: 本稿では、複数の目的が存在する場合の優先型強化学習(PbRL)における公平性の問題に対処する。主な目的は、各目的を公平に扱いながら、複数の目的を最適化できる制御ポリシーを設計することである。この目的に向けて,fpbrl(fairness-induced preference-based reinforcement learning)を新たに設計する。 FPbRLの主な考え方は、PbRLにおける報酬に基づく選好よりも、新たな福祉に基づく選好を通じて、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ福祉関数の最大化による政策学習と合わせて行われる。最後に,提案手法が効率的かつ公正な政策を学習するための効率性と公平性を両立できることを示すために,3つの異なる環境に関する実験研究を行った。

関連論文リスト

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment [15.396104072574104]
政治強化学習のクラスであるf群相対政策最適化(f-GRPO)とf-Hybrid Alignment Loss(f-HAL)を提案する。我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
論文参考訳（メタデータ） (2026-02-05T18:01:52Z)
Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた本研究では,RLの利点と制約をグラフに基づく抽出により検討する。我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文参考訳（メタデータ） (2025-09-26T17:39:48Z)
Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
Navigating the Social Welfare Frontier: Portfolios for Multi-objective Reinforcement Learning [29.937261596364472]
我々は強化学習における$alpha$-approximate portfolioの概念を研究する。近似係数、ポートフォリオサイズ、計算効率のトレードオフに関する理論的保証を提供する。合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2025-02-13T19:13:55Z)
Scalable Multi-Objective Reinforcement Learning with Fairness Guarantees using Lorenz Dominance [43.44913206006581]
マルチオブジェクト強化学習(MORL)は、複数の、しばしば矛盾する目標間のトレードオフを最適化する一連のポリシーを学ぶことを目的としている。本稿では,多目的問題に対するスケーラビリティを向上しつつ,公平性をMORLに組み込んだアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-27T10:16:25Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Utility-Based Reinforcement Learning: Unifying Single-objective and Multi-objective Reinforcement Learning [3.292607871053364]
実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
論文参考訳（メタデータ） (2024-02-05T01:42:28Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文参考訳（メタデータ） (2020-08-18T07:17:53Z)
Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。一般PbRL問題に対する最初の有限時間解析を提案する。
論文参考訳（メタデータ） (2020-06-16T03:52:41Z)
Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。 RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文参考訳（メタデータ） (2020-02-07T09:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。