論文の概要: Aligning Agent Policy with Externalities: Reward Design via Bilevel RL
- arxiv url: http://arxiv.org/abs/2308.02585v1
- Date: Thu, 3 Aug 2023 18:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:46:54.426069
- Title: Aligning Agent Policy with Externalities: Reward Design via Bilevel RL
- Title(参考訳): エージェントポリシーと外部性の統合:bilevel rlによる報酬設計
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha,
Huazheng Wang, Furong Huang, and Mengdi Wang
- Abstract要約: 強化学習では、政策最適化手順の開始時に報酬関数が仮定されることが多い。
本稿では, エージェントの方針とプリンシパルの目標を効率的に整合させる, バイレベルRLによるプリンシパル駆動型政策アライメントを提案する。
我々は、エネルギー効率の高い操作タスク、社会福祉に基づく税制設計、費用対効果のロボットナビゲーションなど、いくつかの例と整合性の観点から、この枠組みの利点を照らし出す。
- 参考スコア(独自算出の注目度): 81.91725229377731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), a reward function is often assumed at the
outset of a policy optimization procedure. Learning in such a fixed reward
paradigm in RL can neglect important policy optimization considerations, such
as state space coverage and safety. Moreover, it can fail to encompass broader
impacts in terms of social welfare, sustainability, or market stability,
potentially leading to undesirable emergent behavior and potentially misaligned
policy. To mathematically encapsulate the problem of aligning RL policy
optimization with such externalities, we consider a bilevel optimization
problem and connect it to a principal-agent framework, where the principal
specifies the broader goals and constraints of the system at the upper level
and the agent solves a Markov Decision Process (MDP) at the lower level. The
upper-level deals with learning a suitable reward parametrization corresponding
to the broader goals and the lower-level deals with learning the policy for the
agent. We propose Principal driven Policy Alignment via Bilevel RL (PPA-BRL),
which efficiently aligns the policy of the agent with the principal's goals. We
explicitly analyzed the dependence of the principal's trajectory on the
lower-level policy, prove the convergence of PPA-BRL to the stationary point of
the problem. We illuminate the merits of this framework in view of alignment
with several examples spanning energy-efficient manipulation tasks, social
welfare-based tax design, and cost-effective robotic navigation.
- Abstract(参考訳): 強化学習(RL)では、政策最適化手順の開始時に報酬関数が仮定されることが多い。
RLにおけるそのような固定報酬パラダイムの学習は、状態空間のカバレッジや安全性といった重要なポリシー最適化の考慮を無視することができる。
さらに、社会福祉、持続可能性、市場の安定といった幅広い影響を包含することができず、望ましくない緊急行動や政策の不一致につながる可能性がある。
このような外部性とRL政策最適化の整合性に関する問題を数学的にカプセル化するために、二段階最適化問題を考慮し、これを主エージェントフレームワークに接続し、主エージェントが上位レベルでシステムのより広い目標と制約を指定し、エージェントが下位レベルでマルコフ決定プロセス(MDP)を解く。
上位レベルは、より広い目標に対応する適切な報酬パラメトリゼーションの学習を扱い、下位レベルは、エージェントのポリシーの学習を扱っている。
本稿では, エージェントの方針を主目的と効率的に整合させる, バイレベルRL(PPA-BRL)によるプリンシパル駆動型政策アライメントを提案する。
我々は,主の軌道が下層政策に依存していることを明確に分析し,PPA-BRLの定常点への収束性を証明した。
我々は,この枠組みのメリットを,エネルギー効率のよい操作課題,社会福祉に基づく税制設計,コスト効率の高いロボットナビゲーションといったいくつかの例に照らし出す。
関連論文リスト
- SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Robust Data-driven Prescriptiveness Optimization [4.792851066169871]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。
サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-09T14:56:06Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。