Fugu-MT 論文翻訳(概要): Welfare and Fairness in Multi-objective Reinforcement Learning

論文の概要: Welfare and Fairness in Multi-objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2212.01382v5
Date: Mon, 13 Nov 2023 02:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 22:40:11.432358
Title: Welfare and Fairness in Multi-objective Reinforcement Learning
Title（参考訳）: 多目的強化学習における福祉と公正
Authors: Zimeng Fan, Nianli Peng, Muhang Tian, and Brandon Fain
Abstract要約: エージェントが複数の次元において高い報酬を同時に達成する政策を学習しなければならない公平な多目的強化学習について検討する。提案手法は,線形スカラー化に基づく手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 1.5763562007908967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource allocation literature, we model this as an expected welfare maximization problem, for some nonlinear fair welfare function of the vector of long-term cumulative rewards. One canonical example of such a function is the Nash Social Welfare, or geometric mean, the log transform of which is also known as the Proportional Fairness objective. We show that even approximately optimal optimization of the expected Nash Social Welfare is computationally intractable even in the tabular case. Nevertheless, we provide a novel adaptation of Q-learning that combines nonlinear scalarized learning updates and non-stationary action selection to learn effective policies for optimizing nonlinear welfare functions. We show that our algorithm is provably convergent, and we demonstrate experimentally that our approach outperforms techniques based on linear scalarization, mixtures of optimal linear scalarizations, or stationary action selection for the Nash Social Welfare Objective.
Abstract（参考訳）: エージェントがベクトル値の報酬の多次元における高い報酬を同時に達成するポリシーを学習しなければならない、公平な多目的強化学習について検討する。公平な資源配分の文献に動機づけられ, 長期累積報酬ベクトルの非線形公正福祉関数に対して, 期待される福祉最大化問題としてモデル化した。そのような機能の典型例の1つはナッシュ社会福祉(英語版)(幾何学的平均)であり、その対数変換は比例フェアネス目的(英語版)(Proportional Fairness objective)とも呼ばれる。その結果,ナッシュ社会福祉の最適最適化は,表例においても計算上難解であることがわかった。それにもかかわらず、非線形スカラー化学習更新と非定常行動選択を組み合わせて非線形福祉機能を最適化するための効果的なポリシーを学習するQ-ラーニングの新しい適応を提供する。提案手法は, 線形スカラー化, 最適線形スカラー化の混合, ナッシュ社会福祉目的のための定常的行動選択に基づく手法よりも優れていることを示す。

関連論文リスト

Welfarist Formulations for Diverse Similarity Search [19.27611950362104]
Nearest Neighbor Search (NNS) は、広範囲なアプリケーションを持つデータ構造における基本的な問題である。属性間の多様性を実現するため,NNSにおける福祉ベースの定式化を開発する。我々は、福祉に基づく目的の証明可能な保証付き効率の良い近接アルゴリズムを開発した。
論文参考訳（メタデータ） (2026-02-09T14:42:28Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
FairDICE: Fairness-Driven Offline Multi-Objective Reinforcement Learning [13.825782649016851]
非線形福祉目的を直接最適化した最初のオフラインMORLフレームワークであるFairDICEを提案する。複数のオフラインベンチマークで、FairDICEは既存のベースラインと比較して、フェアネスを意識したパフォーマンスを示している。
論文参考訳（メタデータ） (2025-06-09T09:40:11Z)
Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文参考訳（メタデータ） (2025-02-03T12:32:50Z)
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-20T23:59:26Z)
Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文参考訳（メタデータ） (2024-05-03T01:50:03Z)
Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。非線形最適化のためのベルマン最適性の拡張形式を導出する。アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文参考訳（メタデータ） (2023-11-05T02:11:07Z)
Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文参考訳（メタデータ） (2023-10-02T17:42:01Z)
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文参考訳（メタデータ） (2023-06-01T03:43:53Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Specification-Guided Learning of Nash Equilibria with High Social Welfare [21.573746897846114]
ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。このアルゴリズムは高い社会福祉と均衡政策を計算しているのに対し、最先端のベースラインはナッシュ均衡の計算に失敗したり、比較的低い社会福祉の計算に失敗したりする。
論文参考訳（メタデータ） (2022-06-06T16:06:31Z)
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文参考訳（メタデータ） (2022-03-11T09:00:12Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。