論文の概要: Learning Routines for Effective Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.02943v1
- Date: Sat, 5 Jun 2021 18:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:53:49.504328
- Title: Learning Routines for Effective Off-Policy Reinforcement Learning
- Title(参考訳): 効果的なオフポリティ強化学習のためのルーチン学習
- Authors: Edoardo Cetin, Oya Celiktutan
- Abstract要約: このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of reinforcement learning depends upon designing an
appropriate action space, where the effect of each action is measurable, yet,
granular enough to permit flexible behavior. So far, this process involved
non-trivial user choices in terms of the available actions and their execution
frequency. We propose a novel framework for reinforcement learning that
effectively lifts such constraints. Within our framework, agents learn
effective behavior over a routine space: a new, higher-level action space,
where each routine represents a set of 'equivalent' sequences of granular
actions with arbitrary length. Our routine space is learned end-to-end to
facilitate the accomplishment of underlying off-policy reinforcement learning
objectives. We apply our framework to two state-of-the-art off-policy
algorithms and show that the resulting agents obtain relevant performance
improvements while requiring fewer interactions with the environment per
episode, improving computational efficiency.
- Abstract(参考訳): 強化学習の性能は適切な行動空間を設計することに依存し、各行動の効果は測定可能であるが、柔軟な振る舞いを許容するのに十分な粒度である。
これまでのところ、このプロセスには利用可能なアクションとその実行頻度という観点で、非自明なユーザ選択が必要でした。
このような制約を効果的に解消する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントはルーチン空間上の効果的な振る舞いを学ぶ: 任意の長さの粒度の「等価」なアクションの集合を表す新しい高レベルなアクション空間。
我々の日常空間は、政治以外の強化学習の目的を達成するために、エンドツーエンドで学習される。
筆者らのフレームワークを2つの最先端のオフポリシーアルゴリズムに適用し,各エピソードごとの環境との相互作用を少なくし,計算効率を向上し,関連する性能改善が得られることを示す。
関連論文リスト
- Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - Discovering Temporally-Aware Reinforcement Learning Algorithms [42.016150906831776]
既存の2つの目的発見アプローチに簡単な拡張を提案する。
一般的に使用されるメタ段階的アプローチは適応的目的関数の発見に失敗する。
論文 参考訳(メタデータ) (2024-02-08T17:07:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Constrained-Space Optimization and Reinforcement Learning for Complex
Tasks [42.648636742651185]
Demonstrationからの学習は、オペレータ操作スキルをロボットに転送するためにますます利用されている。
本稿では,複雑なタスクを管理するための制約付き空間最適化と強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T21:50:11Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。