論文の概要: Bounding the Optimal Value Function in Compositional Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.02557v1
- Date: Sun, 5 Mar 2023 03:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:01:27.555336
- Title: Bounding the Optimal Value Function in Compositional Reinforcement
Learning
- Title(参考訳): 合成強化学習における最適値関数のバウンダリング
- Authors: Jacob Adamczyk and Volodymyr Makarenko and Argenis Arriojas and Stas
Tiomkin and Rahul V. Kulkarni
- Abstract要約: 複合タスクの最適解は、既知の原始タスクの解に関連付けられることを示す。
また、ゼロショットポリシーを使うことの後悔は、このクラスの関数に対して有界であることを示す。
- 参考スコア(独自算出の注目度): 2.7998963147546148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of reinforcement learning (RL), agents are often tasked with
solving a variety of problems differing only in their reward functions. In
order to quickly obtain solutions to unseen problems with new reward functions,
a popular approach involves functional composition of previously solved tasks.
However, previous work using such functional composition has primarily focused
on specific instances of composition functions whose limiting assumptions allow
for exact zero-shot composition. Our work unifies these examples and provides a
more general framework for compositionality in both standard and
entropy-regularized RL. We find that, for a broad class of functions, the
optimal solution for the composite task of interest can be related to the known
primitive task solutions. Specifically, we present double-sided inequalities
relating the optimal composite value function to the value functions for the
primitive tasks. We also show that the regret of using a zero-shot policy can
be bounded for this class of functions. The derived bounds can be used to
develop clipping approaches for reducing uncertainty during training, allowing
agents to quickly adapt to new tasks.
- Abstract(参考訳): 強化学習(RL)の分野では、エージェントは報酬関数でのみ異なる様々な問題を解くことを任務とすることが多い。
新しい報酬関数で未発見の問題を解決するために、よく使われるアプローチは、以前に解決されたタスクの機能的構成を含む。
しかし、そのような機能的合成を用いた以前の研究は主に、極限仮定が正確なゼロショット合成を許容する構成関数の特定の例に焦点を当てていた。
我々の研究はこれらの例を統一し、標準およびエントロピー規則化RLにおける構成性のより一般的なフレームワークを提供する。
関数の幅広いクラスに対して、興味のある複合タスクの最適解は既知の原始的なタスクの解と関連することが分かる。
具体的には, 最適合成値関数とプリミティブタスクの値関数との関係を, 両面不等式で示す。
また,ゼロショットポリシの使用に対する後悔は,このタイプの関数に限定できることを示した。
導出境界は、トレーニング中に不確実性を減らし、エージェントが新しいタスクに迅速に適応できるように、クリッピングアプローチを開発するのに使うことができる。
関連論文リスト
- Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - ReMIX: Regret Minimization for Monotonic Value Function Factorization in
Multiagent Reinforcement Learning [10.741140541225604]
単調関数クラスに対する非制限混合関数の最適射影について検討する。
ラグランジアン乗算法を用いて、閉形式最適射影重みを求める。
Predator-Prey および StarCraft Multiagent Challenge 環境における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-02-11T03:52:51Z) - Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:42:49Z) - Multi-Task Learning with Prior Information [5.770309971945476]
本稿では,機能間の関係に関する事前知識を利用するマルチタスク学習フレームワークを提案する。
また、各特徴に対して変化する係数に対してペナルティを課し、それらの共通する特徴に類似した係数を持つことを保証します。
論文 参考訳(メタデータ) (2023-01-04T12:48:05Z) - Utilizing Prior Solutions for Reward Shaping and Composition in
Entropy-Regularized Reinforcement Learning [3.058685580689605]
エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。
エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。
次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。
論文 参考訳(メタデータ) (2022-12-02T13:57:53Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Compressing Deep ODE-Nets using Basis Function Expansions [105.05435207079759]
重みの定式化を基底関数の線形結合を用いた連続深度関数とみなす。
この観点では、ほぼ最先端の性能を維持しながら、再トレーニングすることなく、ベースの変化によって重みを圧縮することができる。
これにより、推論時間とメモリフットプリントの両方が削減され、計算環境間の高速で厳密な適応が可能となる。
論文 参考訳(メタデータ) (2021-06-21T03:04:51Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - A Multi-Agent Primal-Dual Strategy for Composite Optimization over
Distributed Features [52.856801164425086]
目的関数を滑らかな局所関数と凸(おそらく非滑らか)結合関数の和とするマルチエージェント共有最適化問題について検討する。
論文 参考訳(メタデータ) (2020-06-15T19:40:24Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。