論文の概要: Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.02160v1
- Date: Thu, 4 Jan 2024 09:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:17:24.002676
- Title: Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning
- Title(参考訳): 嗜好に基づく多目的強化学習のためのHuman-in-the-Loopポリシー最適化
- Authors: Ke Li, Han Guo
- Abstract要約: 好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 13.627087954965695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) aims to find a set of
high-performing and diverse policies that address trade-offs between multiple
conflicting objectives. However, in practice, decision makers (DMs) often
deploy only one or a limited number of trade-off policies. Providing too many
diversified trade-off policies to the DM not only significantly increases their
workload but also introduces noise in multi-criterion decision-making. With
this in mind, we propose a human-in-the-loop policy optimization framework for
preference-based MORL that interactively identifies policies of interest. Our
method proactively learns the DM's implicit preference information without
requiring any a priori knowledge, which is often unavailable in real-world
black-box decision scenarios. The learned preference information is used to
progressively guide policy optimization towards policies of interest. We
evaluate our approach against three conventional MORL algorithms that do not
consider preference information and four state-of-the-art preference-based MORL
algorithms on two MORL environments for robot control and smart grid
management. Experimental results fully demonstrate the effectiveness of our
proposed method in comparison to the other peer algorithms.
- Abstract(参考訳): マルチオブジェクト強化学習(MORL)は、複数の対立する目標間のトレードオフに対処する、ハイパフォーマンスで多様なポリシーのセットを見つけることを目的としている。
しかし、実際には、意思決定者(DM)は1つまたは少数のトレードオフポリシーのみをデプロイすることが多い。
DMに対する多彩なトレードオフポリシの提供は、作業負荷を著しく増加させるだけでなく、マルチ基準意思決定におけるノイズも引き起こす。
そこで本研究では,利害の方針を対話的に識別する嗜好に基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,実世界のブラックボックス決定シナリオでは利用できないような事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
学習された嗜好情報は、政策最適化を段階的に関心の政策へ導くために使用される。
本研究では,ロボット制御とスマートグリッド管理のための2つのモール環境において,好み情報や4つの最新嗜好に基づくモールアルゴリズムを考慮しない3つの従来のモールアルゴリズムに対するアプローチを評価する。
実験により,提案手法の有効性を他のピアアルゴリズムと比較した。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL [22.468486569700236]
多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。
我々は、オフラインMORLのための新しいデータ駆動型セットアップを提案し、そこで、好みに依存しないポリシーエージェントを学習したい。
PEDAはオフラインのMORLアルゴリズムのファミリーであり、新しい優先順位と条件付きポリシーを通じて決定変換器を構築し拡張する。
論文 参考訳(メタデータ) (2023-04-30T20:15:26Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。