論文の概要: Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.02665v1
- Date: Mon, 5 Feb 2024 01:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:12:00.890803
- Title: Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning
- Title(参考訳): ユーティリティベース強化学習:単一目的と多目的の強化学習の統合
- Authors: Peter Vamplew, Cameron Foale, Conor F. Hayes, Patrick Mannion, Enda
Howley, Richard Dazeley, Scott Johnson, Johan K\"allstr\"om, Gabriel Ramos,
Roxana R\u{a}dulescu, Willem R\"opke, Diederik M. Roijers
- Abstract要約: 実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。
本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。
また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
- 参考スコア(独自算出の注目度): 3.292607871053364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in multi-objective reinforcement learning (MORL) has introduced the
utility-based paradigm, which makes use of both environmental rewards and a
function that defines the utility derived by the user from those rewards. In
this paper we extend this paradigm to the context of single-objective
reinforcement learning (RL), and outline multiple potential benefits including
the ability to perform multi-policy learning across tasks relating to uncertain
objectives, risk-aware RL, discounting, and safe RL. We also examine the
algorithmic implications of adopting a utility-based approach.
- Abstract(参考訳): マルチオブジェクト強化学習(MORL)の研究は、環境報酬と、それらの報酬からユーザによって導出されるユーティリティを定義する機能の両方を利用するユーティリティベースのパラダイムを導入した。
本稿では,このパラダイムを単目的強化学習(rl)の文脈にまで拡張し,未知の目標,リスク対応rl,割引,安全なrlに関するタスク間でマルチポリシー学習を行う能力を含む,複数の潜在的なメリットについて概説する。
また,ユーティリティベースのアプローチを採用することのアルゴリズム的意味についても検討する。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。