論文の概要: Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces
- arxiv url: http://arxiv.org/abs/2502.11828v1
- Date: Mon, 17 Feb 2025 14:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:34.065922
- Title: Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces
- Title(参考訳): 大規模・制約空間を用いた強化学習における区間的公正性
- Authors: Eric Eaton, Marcel Hussing, Michael Kearns, Aaron Roth, Sikata Bela Sengupta, Jessica Sorrell,
- Abstract要約: 多くの実世界の環境では、複数の目的を同時に最適化することが重要である。
目的を1つのスカラー報酬関数の状態ベース再重み付けによって定義する多目的最適化問題を考察する。
目的数が指数関数的に大きい場合でも、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 16.400288624027375
- License:
- Abstract: In traditional reinforcement learning (RL), the learner aims to solve a single objective optimization problem: find the policy that maximizes expected reward. However, in many real-world settings, it is important to optimize over multiple objectives simultaneously. For example, when we are interested in fairness, states might have feature annotations corresponding to multiple (intersecting) demographic groups to whom reward accrues, and our goal might be to maximize the reward of the group receiving the minimal reward. In this work, we consider a multi-objective optimization problem in which each objective is defined by a state-based reweighting of a single scalar reward function. This generalizes the problem of maximizing the reward of the minimum reward group. We provide oracle-efficient algorithms to solve these multi-objective RL problems even when the number of objectives is exponentially large-for tabular MDPs, as well as for large MDPs when the group functions have additional structure. Finally, we experimentally validate our theoretical results and demonstrate applications on a preferential attachment graph MDP.
- Abstract(参考訳): 従来の強化学習(RL)では、学習者は、期待される報酬を最大化するポリシーを見つけるという、単一の目的の最適化問題を解決することを目的としている。
しかし、現実の多くの設定では、複数の目的を同時に最適化することが重要である。
例えば、フェアネスに関心がある場合、州は報酬を付与する複数の(交差する)人口集団に対応する特徴的アノテーションを持っているかもしれないし、我々のゴールは、最小限の報酬を受けるグループの報酬を最大化することかもしれない。
本研究では,各目的を1つのスカラー報酬関数の状態ベース再重み付けにより定義する多目的最適化問題を考察する。
これは最小報酬群の報酬を最大化する問題を一般化する。
目的の数が指数関数的に大きいグラフ状MDPであっても、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムと、グループ関数が追加構造を持つ場合の大規模MDPを提案する。
最後に,理論結果を実験的に検証し,優先アタッチメントグラフ MDP への応用を実証する。
関連論文リスト
- Reinforcement Learning with LTL and $ω$-Regular Objectives via Optimality-Preserving Translation to Average Rewards [43.816375964005026]
線形時間論理(LTL)およびより一般的には、$omega$-regular objectivesは、強化学習における従来の割引和と平均報酬目的の代替である。
我々は,$omega$-regularの目的に対する各RL問題を,最適性保存方式で,平均値の上限値問題に還元できることを示した。
論文 参考訳(メタデータ) (2024-10-16T02:42:37Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Common pitfalls to avoid while using multiobjective optimization in machine learning [1.2499537119440245]
機械学習(ML)における多目的最適化(MOO)の適用の探求への関心が高まっている。
その可能性にもかかわらず、MOOを使いたいML実践者のエントリーレベルガイドとして機能する十分な文献が不足している。
従来の研究、特に深層学習におけるMOO(物理情報ニューラルネットワーク(PINN)を手がかりに)に関する研究を批判的にレビューし、MLにおけるMOOの原則をよりよく把握する必要性を強調した誤解を特定する。
論文 参考訳(メタデータ) (2024-05-02T17:12:25Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Probably Approximately Correct Federated Learning [20.85915650297227]
Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。
既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することはありそうにないことを示している。
FLアルゴリズムの設計において、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。
論文 参考訳(メタデータ) (2023-04-10T15:12:34Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Empirical Study on the Benefits of Multiobjectivization for Solving
Single-Objective Problems [0.0]
局所オプティマはしばしばアルゴリズムの進行を防ぎ、深刻な脅威を引き起こす。
マルチオブジェクトの勾配に基づく高度な可視化技術を用いて,出現するマルチオブジェクトの景観の特性を図示し,考察した。
我々は,多目的COCOMOGSAがこれらの特性を利用して局所トラップを克服できることを実証的に示す。
論文 参考訳(メタデータ) (2020-06-25T14:04:37Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。