論文の概要: PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm
- arxiv url: http://arxiv.org/abs/2208.07914v1
- Date: Tue, 16 Aug 2022 19:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:22:56.668607
- Title: PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm
- Title(参考訳): pd-morl:選好駆動多目的強化学習アルゴリズム
- Authors: Toygun Basaklar, Suat Gumussoy, Umit Y. Ogras
- Abstract要約: 本稿では,選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
提案手法である Preference-Driven MORL (PD-MORL) は、ネットワークパラメータを更新するためのガイダンスとして、好みを利用する。
- 参考スコア(独自算出の注目度): 0.18416014644193063
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many real-world problems involve multiple, possibly conflicting, objectives.
Multi-objective reinforcement learning (MORL) approaches have emerged to tackle
these problems by maximizing a joint objective function weighted by a
preference vector. These approaches find fixed customized policies
corresponding to preference vectors specified during training. However, the
design constraints and objectives typically change dynamically in real-life
scenarios. Furthermore, storing a policy for each potential preference is not
scalable. Hence, obtaining a set of Pareto front solutions for the entire
preference space in a given domain with a single training is critical. To this
end, we propose a novel MORL algorithm that trains a single universal network
to cover the entire preference space. The proposed approach, Preference-Driven
MORL (PD-MORL), utilizes the preferences as guidance to update the network
parameters. After demonstrating PD-MORL using classical Deep Sea Treasure and
Fruit Tree Navigation benchmarks, we evaluate its performance on challenging
multi-objective continuous control tasks.
- Abstract(参考訳): 現実世界の多くの問題は、複数の、おそらくは矛盾する目標を伴う。
多目的強化学習(MORL)アプローチは、優先ベクトルによって重み付けられた結合目的関数を最大化することによりこれらの問題に対処する。
これらのアプローチは、トレーニング中に指定された選好ベクトルに対応するカスタマイズされたポリシーを見つける。
しかし、設計上の制約と目的は通常、現実のシナリオで動的に変化する。
さらに、潜在的な嗜好ごとにポリシーを保存することはスケーラブルではない。
したがって、1つのトレーニングで所定の領域内の選好空間全体に対するpareto front solutionのセットを得ることは極めて重要である。
そこで本研究では,単一のユニバーサルネットワークを学習し,選好空間全体をカバーする新しいモールアルゴリズムを提案する。
提案手法である Preference-Driven MORL (PD-MORL) は、ネットワークパラメータを更新するためのガイダンスとして、好みを利用する。
古典的深海宝物と果樹ナビゲーションベンチマークを用いてpd-morlを実演した後,多目的連続制御課題における性能評価を行った。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Policy-regularized Offline Multi-objective Reinforcement Learning [11.58560880898882]
我々は、単一目的のオフラインRL問題に対して広く適用されたオフラインポリシー規則化手法を、多目的の設定に拡張する。
本研究では,1) 行動選好の近似による選好非一貫性の実証をフィルタリングすること,2) 政策表現性の高い正規化手法を採用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2024-01-04T12:54:10Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL [22.468486569700236]
多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。
我々は、オフラインMORLのための新しいデータ駆動型セットアップを提案し、そこで、好みに依存しないポリシーエージェントを学習したい。
PEDAはオフラインのMORLアルゴリズムのファミリーであり、新しい優先順位と条件付きポリシーを通じて決定変換器を構築し拡張する。
論文 参考訳(メタデータ) (2023-04-30T20:15:26Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep
Reinforcement Learning [4.7210697296108926]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。