Fugu-MT 論文翻訳(概要): Reinforcement Learning with Stepwise Fairness Constraints

論文の概要: Reinforcement Learning with Stepwise Fairness Constraints

arxiv url: http://arxiv.org/abs/2211.03994v1
Date: Tue, 8 Nov 2022 04:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 15:44:22.321498
Title: Reinforcement Learning with Stepwise Fairness Constraints
Title（参考訳）: ステップワイズフェアネス制約による強化学習
Authors: Zhun Deng, He Sun, Zhiwei Steven Wu, Linjun Zhang, David C. Parkes
Abstract要約: 本稿では,段階的公正性制約を伴う強化学習について紹介する。我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
参考スコア（独自算出の注目度）: 50.538878453547966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI methods are used in societally important settings, ranging from credit to employment to housing, and it is crucial to provide fairness in regard to algorithmic decision making. Moreover, many settings are dynamic, with populations responding to sequential decision policies. We introduce the study of reinforcement learning (RL) with stepwise fairness constraints, requiring group fairness at each time step. Our focus is on tabular episodic RL, and we provide learning algorithms with strong theoretical guarantees in regard to policy optimality and fairness violation. Our framework provides useful tools to study the impact of fairness constraints in sequential settings and brings up new challenges in RL.
Abstract（参考訳）: AI手法は、信用から雇用、住居まで、社会的に重要な設定で使われており、アルゴリズムによる意思決定に関して公平性を提供することが不可欠である。さらに、多くの設定は動的であり、人口はシーケンシャルな決定ポリシーに反応する。本稿では,段階的公正性制約を伴う強化学習(RL)の研究を紹介する。我々の焦点は表表のエピソードRLであり、政策の最適性と公正性違反に関する強力な理論的保証を学習アルゴリズムに提供する。我々のフレームワークは、連続的な設定における公平性制約の影響を研究するための有用なツールを提供し、RLに新たな課題をもたらす。

関連論文リスト

Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文参考訳（メタデータ） (2026-02-20T04:24:49Z)
A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges [2.2448567386846916]
強化学習(RL)は人工知能(AI)の強力なパラダイムとして登場した。本稿では,多種多様なアルゴリズムを巧みに分析するRLの包括的調査を行う。我々は、RLアルゴリズムの選択と実装に関する実践的な洞察を提供し、収束、安定性、探索-探索ジレンマといった共通の課題に対処する。
論文参考訳（メタデータ） (2024-11-28T03:53:14Z)
Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-10-10T15:19:45Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文参考訳（メタデータ） (2024-05-02T14:31:52Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文参考訳（メタデータ） (2023-06-13T12:58:12Z)
Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2023-04-19T03:54:31Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文参考訳（メタデータ） (2021-12-30T22:02:42Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。