論文の概要: Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.12726v1
- Date: Tue, 23 Mar 2021 17:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:17:03.216257
- Title: Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning
- Title(参考訳): 政策情報能力:深層強化学習における課題複雑度に関する情報理論尺度
- Authors: Hiroki Furuta, Tatsuya Matsushima, Tadashi Kozuno, Yutaka Matsuo,
Sergey Levine, Ofir Nachum, Shixiang Shane Gu
- Abstract要約: 課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
- 参考スコア(独自算出の注目度): 83.66080019570461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in deep reinforcement learning (RL) research is largely enabled by
benchmark task environments. However, analyzing the nature of those
environments is often overlooked. In particular, we still do not have agreeable
ways to measure the difficulty or solvability of a task, given that each has
fundamentally different actions, observations, dynamics, rewards, and can be
tackled with diverse RL algorithms. In this work, we propose policy information
capacity (PIC) -- the mutual information between policy parameters and episodic
return -- and policy-optimal information capacity (POIC) -- between policy
parameters and episodic optimality -- as two environment-agnostic,
algorithm-agnostic quantitative metrics for task difficulty. Evaluating our
metrics across toy environments as well as continuous control benchmark tasks
from OpenAI Gym and DeepMind Control Suite, we empirically demonstrate that
these information-theoretic metrics have higher correlations with normalized
task solvability scores than a variety of alternatives. Lastly, we show that
these metrics can also be used for fast and compute-efficient optimizations of
key design parameters such as reward shaping, policy architectures, and MDP
properties for better solvability by RL algorithms without ever running full RL
experiments.
- Abstract(参考訳): 深層強化学習(RL)研究の進歩は、主にベンチマークタスク環境によって実現されている。
しかし、これらの環境の性質を分析することはしばしば見過ごされる。
特に、各タスクが基本的に異なるアクション、観察、ダイナミクス、報酬を持ち、多様なRLアルゴリズムに対処できることを考えると、タスクの難易度や解決可能性を測定するための合意可能な方法がない。
本研究では,政策パラメータと政策最適情報容量 (poic) の相互情報である政策情報容量 (pic) と政策パラメータと政策最適情報容量 (poic) を,課題難易度に対する環境非依存でアルゴリズム非依存な2つの定量的指標として提案する。
OpenAI GymとDeepMind Control Suiteの連続制御ベンチマークタスクだけでなく、おもちゃ環境のメトリクスを評価することで、これらの情報理論メトリクスが、さまざまな代替手段よりも正常化タスクの可解性スコアと高い相関関係があることを実証的に実証します。
最後に、これらの指標は、報酬形成やポリシーアーキテクチャ、MDPプロパティといった重要な設計パラメータの高速かつ効率的な最適化にも利用でき、完全なRL実験を行なわずにRLアルゴリズムによる解法性を向上させることができることを示す。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。