論文の概要: Deep RL With Information Constrained Policies: Generalization in
Continuous Control
- arxiv url: http://arxiv.org/abs/2010.04646v1
- Date: Fri, 9 Oct 2020 15:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:39:43.547705
- Title: Deep RL With Information Constrained Policies: Generalization in
Continuous Control
- Title(参考訳): 情報制約ポリシーによる深層rl:継続的制御における一般化
- Authors: Tyler Malloy, Chris R. Sims, Tim Klinger, Miao Liu, Matthew Riemer,
Gerald Tesauro
- Abstract要約: 情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 21.46148507577606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological agents learn and act intelligently in spite of a highly limited
capacity to process and store information. Many real-world problems involve
continuous control, which represents a difficult task for artificial
intelligence agents. In this paper we explore the potential learning advantages
a natural constraint on information flow might confer onto artificial agents in
continuous control tasks. We focus on the model-free reinforcement learning
(RL) setting and formalize our approach in terms of an information-theoretic
constraint on the complexity of learned policies. We show that our approach
emerges in a principled fashion from the application of rate-distortion theory.
We implement a novel Capacity-Limited Actor-Critic (CLAC) algorithm and situate
it within a broader family of RL algorithms such as the Soft Actor Critic (SAC)
and Mutual Information Reinforcement Learning (MIRL) algorithm. Our experiments
using continuous control tasks show that compared to alternative approaches,
CLAC offers improvements in generalization between training and modified test
environments. This is achieved in the CLAC model while displaying the high
sample efficiency of similar methods.
- Abstract(参考訳): 生物学的エージェントは、情報を処理し保存する能力が非常に限られているにもかかわらず、知的に学習し、行動する。
現実世界の問題の多くは、人工知能エージェントにとって難しいタスクである継続的制御を伴う。
本稿では,情報の流れに対する自然な制約が,連続制御タスクにおいて人工エージェントに作用する可能性について考察する。
我々は,学習方針の複雑さに関する情報理論的制約の観点から,モデルフリー強化学習(RL)の設定とアプローチの形式化に注力する。
我々は,速度歪み理論の適用から,我々のアプローチが原則的に現れることを示す。
我々は,新しいcapability-limited actor-critic (clac) アルゴリズムを実装し, soft actor critic (sac) や mutual information reinforcement learning (mirl) アルゴリズムのようなrlアルゴリズムの幅広いファミリー内に配置する。
連続制御タスクを用いた実験により、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の間の一般化を改善することを示した。
これはclacモデルで実現され、同様の方法による高いサンプル効率を示す。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Managing caching strategies for stream reasoning with reinforcement
learning [18.998260813058305]
ストリーム推論は、継続的なデータ変更よりも効率的な意思決定を可能にする。
我々は、衝突駆動制約学習(CDCL)を用いてレガシーソリューションを効率的に更新する新しいアプローチを提案する。
特に,強化学習の適用性について検討し,学習制約の有用性を継続的に評価する。
論文 参考訳(メタデータ) (2020-08-07T15:01:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。